关闭

机器学习中特征降维和特征选择的区别

标签: 特征选择特征降维区别机器学习
3815人阅读 评论(7) 收藏 举报
分类:

       在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。

       对于这两个概念,很多初学者可能不是很清楚他们的区别。很多人都以为特征降维和特征选择的目的都是使数据的维数降低,所以以为它们是一样的,曾经我也这么以为,这个概念上的误区也就导致了我后面对问题的认识不够深入。后来得到老师的指点才彻底搞清楚了两者的关系,现总结出来与大家分享。

       machine learning的终极目标就是为了预测,当然预测前我们要对数据进行training。通常我们不会拿原始数据来训练,为什么呐?可能有些人觉得原始信息包含了样本最丰富的信息,没有经过任何处理的raw data能最完整表达样本,这个观点没有错。但是用raw data来直接训练的话,有一个问题就是我们设计的分类器在训练集上会得到很好的performance,但在测试集上的performance却变得非常差。这就是过拟合(overfitting)的问题。用raw data直接训练还有一个问题就是原始维度太高,耗时长。

     解决过拟合的问题就要求我们找出raw data中差异性最大的那些特征,这样才能保证分类器在测试集有好的performance。所以通常我们都是要对原始数据进行特征提取的。提取特征后通常特征维数依然不低,而且依然可能会出现过拟合的问题,为了解决这些问题,通常的做法就是降维和特征选择。降维用的最多是PCA。

     从上面的分析可能看到,感觉降维和特征选择都是为了使数据维度降小。但实际上两者的区别是很大,他们的本质是完全不同的。下面着重说说两者的区别。

     降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对应着降维后的500维空间中的一个值。假设原始特征中有个特征的值是9,那么降维后对应的值可能是3。

    特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。举个例子,现在的特征是1000维,现在我们要从这1000个特征中选择500个,那个这500个特征的值就跟对应的原始特征中那500个特征值是完全一样的。对于另个500个没有被选择到的特征就直接抛弃了。假设原始特征中有个特征的值是9,那么特征选择选到这个特征后它的值还是9,并没有改变。


本文系原创,转载请注明转载自:http://blog.csdn.net/computerme/article/details/39157073

2
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

机器学习中特征降维和特征选择的区别

在用machine learning是,为了tia
  • computerme
  • computerme
  • 2014-09-09 16:56
  • 3815

特征选择与特征降维的差别

在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。        对于这两个概念,很多初学者可能不是很...
  • rosenor1
  • rosenor1
  • 2016-08-30 20:33
  • 1158

机器学习中特征选择和特征提取区别

特征选择和特征提取区别
  • Neil_Pan
  • Neil_Pan
  • 2016-07-18 12:02
  • 2848

机器学习中特征降维和特征选择的区别

在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。        对于这两个概念,很多初学者可能不是很清楚...
  • bbbeoy
  • bbbeoy
  • 2017-05-20 11:45
  • 110

数据降维和特征选择

数据降维和特征选择 博主言:本文作为理论和概念整理,不做公式推导和详解计算过程,如需了解相关概念的计算公式和过程,在文后的参考链接中有详细的公式,计算过程和实例。
  • Ntozot
  • Ntozot
  • 2016-11-26 11:50
  • 543

机器学习特征选择和特征提取

  • 2018-01-04 10:53
  • 1002KB
  • 下载

机器学习中,有哪些特征选择的工程方法?

知乎用户 ,做过几个机器学习系统 237 人赞同 特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而...
  • u012556077
  • u012556077
  • 2016-06-29 00:30
  • 1323

机器学习(5)、数据清洗和特征选择

正式进入机器学习啦,这节课还好,意外知道了庄家与赔率的计算(原来庄家真的是稳赚不赔呢,楼主表示很想设赌局去做庄);python库好强大,Pandas包直接提供数据读取和处理,Fuzzywuzzy支持字...
  • xuena_xiaoming
  • xuena_xiaoming
  • 2017-04-08 17:46
  • 742

Python机器学习库sklearn数据预处理,数据集构建,特征选择

from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0...
  • cymy001
  • cymy001
  • 2017-11-15 23:11
  • 209

Python机器学习库sklearn自动特征选择(训练集)

1.单变量分析from sklearn.feature_selection import SelectPercentilefrom sklearn.datasets import load_breas...
  • cymy001
  • cymy001
  • 2017-11-19 19:37
  • 236
    个人资料
    • 访问:182490次
    • 积分:2760
    • 等级:
    • 排名:第15013名
    • 原创:86篇
    • 转载:6篇
    • 译文:0篇
    • 评论:73条
    文章分类
    最新评论