筛数方法相关系数_特征选择/变量筛选/数据降维方法

最新推荐文章于 2024-03-27 13:16:23 发布

Axeel Ander

最新推荐文章于 2024-03-27 13:16:23 发布

阅读量1.6k

点赞数

文章标签：筛数方法相关系数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36165323/article/details/111893019

版权

特征选择(按重要程度排序)对数据分析非常重要。好的特征能够改善模型、提升模型的性能。

特征选择主要有两个功能

1.减少特征数量、降维，使模型泛化能力更强，减少过拟合

2.增强对特征和特征值之间的理解

结合Scilit-learn中的例子接受几种常用的特征选择方法

1.去除变化小的特征：Removing features with low variance

假设某特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用，如果是连续型变量，就需要将连续变量离散化之后才能用，而且实际当中，一般不太会有95%以上都取某个值的特征存在，所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。

2.单变量特征选择 Univariate feature selection

单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。这种方法比较简单，易于运行，易于理解，通常对于理解数据有较好的效果(但对特征优化、提高泛化能力来说不一定有效)；这种方法有许多改进的版本、变种。

2.1 Pearson相关系数 Pearson Correlation

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]&

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
筛数方法相关系数_特征选择/变量筛选/数据降维方法

特征选择(按重要程度排序)对数据分析非常重要。好的特征能够改善模型、提升模型的性能。特征选择主要有两个功能1.减少特征数量、降维，使模型泛化能力更强，减少过拟合2.增强对特征和特征值之间的理解结合Scilit-learn中的例子接受几种常用的特征选择方法1.去除变化小的特征：Removing features with low variance假设某特征的特征值只有0和1，并且在所有输入样本中，9...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。