特征选择与特征降维的差别

转载 2016年08月30日 20:33:20

   在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。

       对于这两个概念,很多初学者可能不是很清楚他们的区别。很多人都以为特征降维和特征选择的目的都是使数据的维数降低,所以以为它们是一样的,曾经我也这么以为,这个概念上的误区也就导致了我后面对问题的认识不够深入。后来得到老师的指点才彻底搞清楚了两者的关系,现总结出来与大家分享。

       machine learning的终极目标就是为了预测,当然预测前我们要对数据进行training。通常我们不会拿原始数据来训练,为什么呐?可能有些人觉得原始信息包含了样本最丰富的信息,没有经过任何处理的raw data能最完整表达样本,这个观点没有错。但是用raw data来直接训练的话,有一个问题就是我们设计的分类器在训练集上会得到很好的performance,但在测试集上的performance却变得非常差。这就是过拟合(overfitting)的问题。用raw data直接训练还有一个问题就是原始维度太高,耗时长。

     解决过拟合的问题就要求我们找出raw data中差异性最大的那些特征,这样才能保证分类器在测试集有好的performance。所以通常我们都是要对原始数据进行特征提取的。提取特征后通常特征维数依然不低,而且依然可能会出现过拟合的问题,为了解决这些问题,通常的做法就是降维和特征选择。降维用的最多是PCA。

     从上面的分析可能看到,感觉降维和特征选择都是为了使数据维度降小。但实际上两者的区别是很大,他们的本质是完全不同的。下面着重说说两者的区别。

     降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对应着降维后的500维空间中的一个值。假设原始特征中有个特征的值是9,那么降维后对应的值可能是3。

    特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。举个例子,现在的特征是1000维,现在我们要从这1000个特征中选择500个,那个这500个特征的值就跟对应的原始特征中那500个特征值是完全一样的。对于另个500个没有被选择到的特征就直接抛弃了。假设原始特征中有个特征的值是9,那么特征选择选到这个特征后它的值还是9,并没有改变。


机器学习中特征降维和特征选择的区别

在用machine learning是,为了tia
  • computerme
  • computerme
  • 2014年09月09日 16:56
  • 4117

文本挖掘之降维技术之特征选择

1、为什么要进行降维处理?     目前大多数使用向量空间模型对文本表示成为向量形式,而向量的属性则有可能涉及到中文中的所有词汇,其向量的维数是非常巨大的,同时考虑到一篇文章只不过包含极少数词语(比如...
  • u011955252
  • u011955252
  • 2016年02月29日 16:41
  • 3296

特征选择与降维总结

特征选择   特征选择是一个很重要的数据预处理过程,在现实的机器学习任务中,获得数据之后通常进行特征选择。   进行特征选择的原因:   (1)    维数灾难问题   (2)    去除不相...
  • WOJIAOSUSU
  • WOJIAOSUSU
  • 2017年03月13日 23:11
  • 1288

数据降维和特征选择

数据降维和特征选择 博主言:本文作为理论和概念整理,不做公式推导和详解计算过程,如需了解相关概念的计算公式和过程,在文后的参考链接中有详细的公式,计算过程和实例。...
  • Ntozot
  • Ntozot
  • 2016年11月26日 11:50
  • 646

机器学习中的特征——特征选择的方法以及注意点

关于机器学习中的特征我有话要说 一、特征选择和降维 二、特征选择的目标 三、...
  • google19890102
  • google19890102
  • 2014年10月12日 17:23
  • 27460

漫谈机器学习经典算法—特征提取与特征选择

模式识别 机器学习 特征提取和特征选择
  • lanbing510
  • lanbing510
  • 2014年10月27日 00:35
  • 59141

AdaBoost特征降维

  • 2015年08月16日 15:49
  • 6KB
  • 下载

特征选择(feature selection)

特征选择 feature selection终于有时间把好久之前就想写的关于特征选择的基本介绍补上来了,主要想从以下几个方面介绍: 1. 特征选择的动机-为什么要特征选择 2. 常见的特征...
  • u012328159
  • u012328159
  • 2016年12月31日 15:00
  • 5645

特征降维

维度灾难 首先在机器学习中,如果特征值(也可称之为维度,或feature,或参数)过多,会发生所谓的维度灾难。维度灾难最直接的后果就是过拟合现象,而发生该现象最根本的原因是: 1,维度增加时,有限的样...
  • OnlyQi
  • OnlyQi
  • 2016年03月10日 10:59
  • 4278

四大机器学习降维方法

引言: 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达...
  • rosenor1
  • rosenor1
  • 2016年08月22日 16:39
  • 15456
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:特征选择与特征降维的差别
举报原因:
原因补充:

(最多只允许输入30个字)