6.1数据特征选定：单变量特征选择、递归特征消除RFE(常用)、主成分分析PCA、特征的重要性ETC【pima_data.csv数据集】

今天会营业

已于 2024-03-27 21:04:43 修改

阅读量401

点赞数 10

分类专栏：数学建模美赛文章标签：追梦算法 python

于 2024-01-04 09:59:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56501550/article/details/135377552

版权

数学建模美赛专栏收录该内容

29 篇文章 2 订阅

订阅专栏

为什么需要处理数据特征

1、什么是特征选定

2、单变量特征选择

卡方检验（用得少）：

如自变量有n种，因变量有m种，需要考虑自变量等于因变量样本的评述的观察值或者期望值的区别或看卡方值对数据结果的影响（卡方值越大越不符合，卡方值越小偏差就越小，卡方值等于0即理论值与预测值完全相同）

例：导入库、数据、分割数据

第十一行：

特征选择：用单变量特征挑选的函数（得分方式：卡方检验，指标选择4个（最高8个））

第十二行：训练

第十三行：把精度调整一下，保留三个小数

第十四行：把训练得分显示

第十五行：把特征的数据转换一下

第十六行：显示

可以看出：通过卡方检验得出得分，我们选择得分最高的四个特征，得分越高说明越有效，最有利于我们的模型（这个是通过卡方检验得到了一个得分，而不是卡方检验的值）

3、递归特征消除RFE(常用)

类似于先用一个小模型训练，训练效果好的话再用大模型训练

例：

导入库、数据、分割数据

第二十八行：创建基模型

第二十九行：RFE模型（基模型，最终选择的特征个数）

第三十行：训练

第三十一到三十六行：输出结果

4、主成分分析PCA

（慎用：需要解释，挑选不是剔除某个特征，而是某些特征进行合并，所以需要解释合并的意义是什么）：

即降维的过程，通过线性代数等把一些指标用一些少的特征描述，维度降低后准确率就会提高

导入库、数据、分割数据

第四十七行：建立pca模型对象，并选择降维的个数

第四十八行：训练

第四十九行：输出解释方差类似于贡献度

第五十行：输出成分的方差

把八个维度的特征降成了三个维度：通过解释方差可以看出后面两个特征的贡献率太低了，对模型没有太大的帮助

成分方差：可以用在主成分里面的方差的计算

5、特征的重要性ETC

导入库、数据、分割数据

第六十一行：建立模型对象

第六十二行：训练模型

第六十三行：输出特征的重要性的得分

今天会营业

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。