单变量特征选择
对每一个特征进行测试,衡量该特征和响应变量之间的关系。
优点:易于运行,易于理解,通常对于理解数据有较好的结果,但其与设计的算法模型无关。
常见的方法:
1、皮尔逊相关系数
皮尔逊相关系数表示两个变量之间的协方差和标准差的商
计算公式:
系数理解:在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性。也可能从数学的角度理解,类似余弦夹角。
- 0.8-1.0 极强相关
- 0.6-0.8 强相关
- 0.4-0.6 中等程度相关
- 0.2-0.4 弱相关
- 0.0-0.2 极弱相关或无相关
2、距离相关系数
基于距离协方差进行变量间相关性度量
计算公式:
相关性理解:
3、卡方检验
思想:通过观察实际值与理论值的偏差来确定理论的正确与否
具体做法:假设两个变量独立,然后观察实际值与理论值的偏差程度,如果偏差足够小,则认为是正常误差,如果偏差大到一定程度,则认为两者相关。
基于模型的特征选择
-
方法1、基于逻辑回归和正则化的特征选择
-
逻辑回归中越是重要的特征在模型中对应的系数就会越大,而跟输出变量越是无关的特征对应的系数就会越接近于0
-
L1正则化将系数的范数作为惩罚项加到损失函数上,由于正则项非0,迫使那些弱的特征所对应的系数变成0,因此L1正则化往往会使学到的模型很稀疏(系数经常为0),这个特性使得正则化成为一种很好的特征选择方法。
-
L1正则化像非正则化线性模型一样也是不稳定的,如果特征集合中具有相关联的特征,当数据发生细微变化时也有可能导致很大的模型差异。【此处需要思考:为什么线性特征会让加了L1正则化的模型不稳定?】
-
L2正则化将稀疏向量的范数添加到了损失函数中。L2正则化会让系数的取值变得平均。对于相关联的特征,意味着他们能够获得更相近的对应系数。
-
L2正则化对于特征选择来说是一种稳定的模型,L2正则化对于特征理解来说更加有用,表示能力强的特征对应的系数是非零。
-
L2防止模型过拟合。
-
-
方法2、随机森林特征选择[1] [论文]
-
mean decrease impurity(平均不纯度减少,对于分类问题通常采用基尼不纯度或者信息增益。对于回归问题,通常采用方差或者最小二乘拟合。)
-
mean decrease accuracy(平均精确度减少)
-
准确率高、鲁棒性好、易于使用等优点
-
随机森林提供了两种特征选择方法:
-
-
方法3、XGBoost特征选择
-
某个特征的重要性(feature score)等于它被选中为树节点分裂特征的次数的和
-
-
方法4、基于深度学习的特征选择
-
深度学习具有很强的自动特征抽取能力
-