python逐步回归筛选变量_特征选择与逐步回归分析

最新推荐文章于 2023-09-17 10:23:56 发布

weixin_39799290

最新推荐文章于 2023-09-17 10:23:56 发布

阅读量2.2k

点赞数 1

文章标签： python逐步回归筛选变量

本文介绍了在特征工程和逐步回归分析中如何选择与预测目标相关的特征。通过逐步回归，可以从原始特征集中筛选出对论文被引次数预测有显著影响的特征，构建有效的预测模型。文章详细阐述了特征工程的必要性、降维与特征选择的方法，以及逐步回归分析的原理和Python实现。

摘要由CSDN通过智能技术生成

1引言

在学校的时候，我跟着师姐做了一个文献计量学方面的研究(Citation impact prediction for scientific papers using stepwise regression analysis)，尝试预测一篇论文发表之后5年的被引次数。师姐在数据采集阶段，获取了非常多的字段，又在特征构造阶段充分发挥领域知识和想象力，最后构造了很多特征。我们不得不回答一个问题:这些特征里，是不是有一些和论文被引次数没啥关系的呢？

后来，我们使用逐步回归分析，从原始特征集中选出了一个最佳子集，过滤掉了与论文被引次数关系不大的特征，并在此基础上构建了一个预测模型。

为啥要用逐步回归分析呢？逐步回归分析的名字里虽然带了“回归”，但实际上是一个特征选择方法。如图1-1，是与逐步回归分析相关的一些概念及其关系。图1-1 逐步回归相关概念

2特征工程、降维与特征选择

2.1特征工程

2.1.1原始数据无法直接使用

学术期刊发行机构们非常有远见，很早就开始用成体系的方式来记录以论文为载体的科研活动。出版商们记录的，就是论文中除正文之外的所有信息，包括作者、作者所在机构、论文项目基金来源、发表年份、引用文献信息等等，如表1-1。

表2-1 一篇论文的原始数据

我们要回归分析啊，这些信息有啥用呢？它们或者是一堆字符串，或者是年份这样的顺序数据，不适合作为多元线性回归模型的输入。

我们需要做特征工程，让原始数据变成多元线性回归模型可以处理的形式。

最低0.47元/天解锁文章

weixin_39799290

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python逐步回归筛选变量_特征选择与逐步回归分析

1引言在学校的时候，我跟着师姐做了一个文献计量学方面的研究(Citation impact prediction for scientific papers using stepwise regression analysis)，尝试预测一篇论文发表之后5年的被引次数。师姐在数据采集阶段，获取了非常多的字段，又在特征构造阶段充分发挥领域知识和想象力，最后构造了很多特征。我们不得不回答一个问题:这些...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。