特征选择需求描述:
特征选择方法及适用条件:
- 过滤式
- 方差选择法:适用于离散型数据。
主要是去掉方差较小的特征,因为方差小表明该特征的取值差异不大。- 卡方检验法:定性变量。
自变量和因变量都是被分好类的数据。 卡方检验值越大,相关性越强。- 皮尔森相关系数法:
相关系数绝对值越大,相关性越强- 最大信息系数法:建议作为分类问题的分类变量的筛选方法(可适用于离散或连续型特征)。具体数据实现过程:https://blog.csdn.net/FontThrone/article/details/85227239
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。- 以上四种方法的具体原理,参考链接:https://zhuanlan.zhihu.com/p/42495319
- 代码实现:https://www.cnblogs.com/stevenlk/p/6543628.html
- 包装法
待续。。。
- 嵌入法
待续。。。
参考链接:
https://www.cnblogs.com/jasonfreak/p/5448385.html
https://blog.csdn.net/FontThrone/article/details/85227239
https://blog.csdn.net/weixin_43172660/article/details/84340164
https://www.cnblogs.com/wanglei5205/p/8973680.html
https://zhuanlan.zhihu.com/p/42495319
https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF/7423853?fr=aladdin
https://www.cnblogs.com/stevenlk/p/6543628.html