python逐步回归筛选变量_特征选择与逐步回归分析

1引言

在学校的时候,我跟着师姐做了一个文献计量学方面的研究(Citation impact prediction for scientific papers using stepwise regression analysis),尝试预测一篇论文发表之后5年的被引次数。师姐在数据采集阶段,获取了非常多的字段,又在特征构造阶段充分发挥领域知识和想象力,最后构造了很多特征。我们不得不回答一个问题:这些特征里,是不是有一些和论文被引次数没啥关系的呢?

后来,我们使用逐步回归分析,从原始特征集中选出了一个最佳子集,过滤掉了与论文被引次数关系不大的特征,并在此基础上构建了一个预测模型。

为啥要用逐步回归分析呢?逐步回归分析的名字里虽然带了“回归”,但实际上是一个特征选择方法。如图1-1,是与逐步回归分析相关的一些概念及其关系。图1-1 逐步回归相关概念

2特征工程、降维与特征选择

2.1特征工程

2.1.1原始数据无法直接使用

学术期刊发行机构们非常有远见,很早就开始用成体系的方式来记录以论文为载体的科研活动。出版商们记录的,就是论文中除正文之外的所有信息,包括作者、作者所在机构、论文项目基金来源、发表年份、引用文献信息等等,如表1-1。

表2-1 一篇论文的原始数据

我们要回归分析啊,这些信息有啥用呢?它们或者是一堆字符串,或者是年份这样的顺序数据,不适合作为多元线性回归模型的输入。

我们需要做特征工程,让原始数据变成多元线性回归模型可以处理的形式。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值