1引言
在学校的时候,我跟着师姐做了一个文献计量学方面的研究(Citation impact prediction for scientific papers using stepwise regression analysis),尝试预测一篇论文发表之后5年的被引次数。师姐在数据采集阶段,获取了非常多的字段,又在特征构造阶段充分发挥领域知识和想象力,最后构造了很多特征。我们不得不回答一个问题:这些特征里,是不是有一些和论文被引次数没啥关系的呢?
后来,我们使用逐步回归分析,从原始特征集中选出了一个最佳子集,过滤掉了与论文被引次数关系不大的特征,并在此基础上构建了一个预测模型。
为啥要用逐步回归分析呢?逐步回归分析的名字里虽然带了“回归”,但实际上是一个特征选择方法。如图1-1,是与逐步回归分析相关的一些概念及其关系。图1-1 逐步回归相关概念
2特征工程、降维与特征选择
2.1特征工程
2.1.1原始数据无法直接使用
学术期刊发行机构们非常有远见,很早就开始用成体系的方式来记录以论文为载体的科研活动。出版商们记录的,就是论文中除正文之外的所有信息,包括作者、作者所在机构、论文项目基金来源、发表年份、引用文献信息等等,如表1-1。
表2-1 一篇论文的原始数据
我们要回归分析啊,这些信息有啥用呢?它们或者是一堆字符串,或者是年份这样的顺序数据,不适合作为多元线性回归模型的输入。
我们需要做特征工程,让原始数据变成多元线性回归模型可以处理的形式。