【ML】特征选择方法

单变量特征选择

对每一个特征进行测试,衡量该特征和响应变量之间的关系。

优点:易于运行,易于理解,通常对于理解数据有较好的结果,但其与设计的算法模型无关。

常见的方法:

1、皮尔逊相关系数

皮尔逊相关系数表示两个变量之间的协方差和标准差的商

计算公式:

系数理解:在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性。也可能从数学的角度理解,类似余弦夹角。

  • 0.8-1.0 极强相关
  • 0.6-0.8 强相关
  • 0.4-0.6 中等程度相关
  • 0.2-0.4 弱相关
  • 0.0-0.2 极弱相关或无相关

2、距离相关系数

基于距离协方差进行变量间相关性度量

计算公式:

相关性理解:

3、卡方检验

思想:通过观察实际值与理论值的偏差来确定理论的正确与否

具体做法:假设两个变量独立,然后观察实际值与理论值的偏差程度,如果偏差足够小,则认为是正常误差,如果偏差大到一定程度,则认为两者相关。

基于模型的特征选择

  • 方法1、基于逻辑回归和正则化的特征选择

    • 逻辑回归中越是重要的特征在模型中对应的系数就会越大,而跟输出变量越是无关的特征对应的系数就会越接近于0

    • L1正则化将系数的范数作为惩罚项加到损失函数上,由于正则项非0,迫使那些弱的特征所对应的系数变成0,因此L1正则化往往会使学到的模型很稀疏(系数经常为0),这个特性使得正则化成为一种很好的特征选择方法。

    • L1正则化像非正则化线性模型一样也是不稳定的,如果特征集合中具有相关联的特征,当数据发生细微变化时也有可能导致很大的模型差异。【此处需要思考:为什么线性特征会让加了L1正则化的模型不稳定?】

    • L2正则化将稀疏向量的范数添加到了损失函数中。L2正则化会让系数的取值变得平均。对于相关联的特征,意味着他们能够获得更相近的对应系数。

    • L2正则化对于特征选择来说是一种稳定的模型,L2正则化对于特征理解来说更加有用,表示能力强的特征对应的系数是非零。

    • L2防止模型过拟合。

  • 方法2、随机森林特征选择[1]  [论文]

    • mean decrease impurity(平均不纯度减少,对于分类问题通常采用基尼不纯度或者信息增益。对于回归问题,通常采用方差或者最小二乘拟合。)

    • mean decrease accuracy(平均精确度减少)

    • 准确率高、鲁棒性好、易于使用等优点

    • 随机森林提供了两种特征选择方法:

  • 方法3、XGBoost特征选择

    • 某个特征的重要性(feature score)等于它被选中为树节点分裂特征的次数的和

  • 方法4、基于深度学习的特征选择

    • 深度学习具有很强的自动特征抽取能力

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值