机器学习_特征挑选的方法

todo:暂时是看到一些常用场景对应的一些方法,比较乱,之后统一整理下

这篇知乎有关于特征选择的大纲。

特征挑选方法

特征选择的优点:

  • 提高效率,特征越少,模型越简单

  • 正则化,防止特征过多出现过拟合

  • 去除无关特征,保留相关性大的特征,解释性强

特征选择的缺点:

  • 筛选特征的计算量较大

  • 不同特征组合,也容易发生过拟合

  • 容易选到无关特征,解释性差

线性模型

1、可以通过计算出每个特征的重要性(即权重),然后再根据重要性的排序进行选择。|wi|越大,表示对应特征xi越重要,则该特征应该被选择。w的值可以通过对已有的数据集(xi,yi)建立线性模型而得到。

非线性

1、比如随机森林,使用random test选取特征。random test的做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要。随机值选择通常有两种方法:一是使用uniform或者gaussian抽取随机值替换原特征,另一种方法通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布(相当于重新洗牌)。比较而言,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值