【ML】特征选择方法

最新推荐文章于 2022-02-10 19:23:09 发布

凝眸伏笔

最新推荐文章于 2022-02-10 19:23:09 发布

阅读量370

点赞数

分类专栏： ML 文章标签：机器学习特征选择

本文链接：https://blog.csdn.net/pearl8899/article/details/106286700

版权

ML 专栏收录该内容

42 篇文章 14 订阅

订阅专栏

单变量特征选择

对每一个特征进行测试，衡量该特征和响应变量之间的关系。

优点：易于运行，易于理解，通常对于理解数据有较好的结果，但其与设计的算法模型无关。

常见的方法：

1、皮尔逊相关系数

皮尔逊相关系数表示两个变量之间的协方差和标准差的商

计算公式：

系数理解：在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性。也可能从数学的角度理解，类似余弦夹角。

0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

2、距离相关系数

基于距离协方差进行变量间相关性度量

计算公式：

3、卡方检验

思想：通过观察实际值与理论值的偏差来确定理论的正确与否

具体做法：假设两个变量独立，然后观察实际值与理论值的偏差程度，如果偏差足够小，则认为是正常误差，如果偏差大到一定程度，则认为两者相关。

基于模型的特征选择

方法1、基于逻辑回归和正则化的特征选择
- 逻辑回归中越是重要的特征在模型中对应的系数就会越大，而跟输出变量越是无关的特征对应的系数就会越接近于0
- L1正则化将系数的范数作为惩罚项加到损失函数上，由于正则项非0，迫使那些弱的特征所对应的系数变成0，因此L1正则化往往会使学到的模型很稀疏（系数经常为0），这个特性使得正则化成为一种很好的特征选择方法。
- L1正则化像非正则化线性模型一样也是不稳定的，如果特征集合中具有相关联的特征，当数据发生细微变化时也有可能导致很大的模型差异。【此处需要思考：为什么线性特征会让加了L1正则化的模型不稳定？】
- L2正则化将稀疏向量的范数添加到了损失函数中。L2正则化会让系数的取值变得平均。对于相关联的特征，意味着他们能够获得更相近的对应系数。
- L2正则化对于特征选择来说是一种稳定的模型，L2正则化对于特征理解来说更加有用，表示能力强的特征对应的系数是非零。
- L2防止模型过拟合。
方法2、随机森林特征选择[1] [论文]
- mean decrease impurity（平均不纯度减少，对于分类问题通常采用基尼不纯度或者信息增益。对于回归问题，通常采用方差或者最小二乘拟合。）
- mean decrease accuracy（平均精确度减少）
- 准确率高、鲁棒性好、易于使用等优点
- 随机森林提供了两种特征选择方法：
方法3、XGBoost特征选择
- 某个特征的重要性（feature score）等于它被选中为树节点分裂特征的次数的和
方法4、基于深度学习的特征选择
- 深度学习具有很强的自动特征抽取能力