为什么需要处理数据特征 1、什么是特征选定 2、单变量特征选择 卡方检验(用得少): 如自变量有n种,因变量有m种,需要考虑自变量等于因变量样本的评述的观察值或者期望值的区别或看卡方值对数据结果的影响(卡方值越大越不符合,卡方值越小偏差就越小,卡方值等于0即理论值与预测值完全相同) 例:导入库、数据、分割数据 第十一行: 特征选择 :用单变量特征挑选的函数(得分方式:卡方检验,指标选择4个(最高8个)) 第十二行:训练 第十三行:把精度调整一下,保留三个小数 第十四行:把训练得分显示 第十五行:把特征的数据转换一下 第十六行:显示 可以看出:通过卡方检验得出得分,我们选择得分最高的四个特征,得分越高说明越有效,最有利于我们的模型(这个是通过卡方检验得到了一个得分,而不是卡方检验的值) 3、递归特征消除RFE(常用) 类似于先用一个小模型训练,训练效果好的话再用大模型训练 例: 导入库、数据、分割数据 第二十八行:创建基模型 第二十九行:RFE模型(基模型,最终选择的特征个数) 第三十行:训练 第三十一到三十六行:输出结果 4、主成分分析PCA (慎用:需要解释,挑选不是剔除某个特征,而是某些特征进行合并,所以需要解释合并的意义是什么): 即降维的过程,通过线性代数等把一些指标用一些少的特征描述,维度降低后准确率就会提高 导入库、数据、分割数据 第四十七行:建立pca模型对象,并选择降维的个数 第四十八行:训练 第四十九行:输出解释方差类似于贡献度 第五十行:输出成分的方差 把八个维度的特征降成了三个维度:通过解释方差可以看出后面两个特征的贡献率太低了,对模型没有太大的帮助 成分方差:可以用在主成分里面的方差的计算 5、特征的重要性ETC 导入库、数据、分割数据 第六十一行:建立模型对象 第六十二行:训练模型 第六十三行:输出特征的重要性的得分