【数据挖掘】特征选择和降维

一、概念

特征选择feature selection:也被称为variable selection或者attribute selection. 是选取已有属性的子集subset来进行建模的一种方式.

进行特征选择的目的主要有: 简化模型,缩短训练时间,避免维数灾难(curse of dimensionality),  增强model的泛化能力.

降维dimensionality reduction: 通过对原有的feature进行重新组合,形成新的feature,选取其中的principal components.  常用降维方法有PCA和SVD分解.

dimensionality reduction和feature selection差别主要在于: 前者在原有的feature上生成了新的feature, 后者只是选取原有feautre 集合中的子集,而不对原有集合进行修改.

二、特征选择方法

filter method: 通过统计学的方法对每个feature给出一个score, 通过score对特征进行排序,然后从中选取score最高的子集. 这种方法仅仅是对每个feature进行独立考虑,没有考虑到feature之间的依赖性或相关性. 常用的方法有: 卡方检验,信息增益等.

wrapper method: 和filter method 相比, wrapper  method 考虑到了feature 之间的相关性, 通过考虑feature的组合对于model性能的影响. 比较不同组合之间的差异,选取性能最好的组合. 比如recursive feature selection

 

embedded method: 结合前面二者的优点,  在模型建立的时候,同时计算模型的准确率. 最常见的embedded method 是 regularization methods(简单来说就是通过增加penalization coefficients来约束模型的复杂度).

 

 三、降维的方法

PCA:

SVD:

 

转载于:https://www.cnblogs.com/vincentcheng/p/7223851.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值