feature selection (互信息 去掉和类标签无关特征 + PCA)

转载 2013年12月02日 21:09:38

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html


 真实的训练数据总是存在各种各样的问题:

1、[冗余] 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。

2、 [冗余] 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢?

3、[过度拟合] 拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过度拟合。比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数),搞了这么多特征,结果只有不到十个房子的样例。要拟合房子特征->房价的这么多特征,就会造成过度拟合。

4、 [冗余] 这个与第二个有点类似,假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?

5、 [噪音] 在信号传输过程中,由于信道不是理想的,信道另一端收到的信号会有噪音扰动,那么怎么滤去这些噪音呢?

     回顾我们之前介绍的《模型选择和规则化》,里面谈到的特征选择的问题。但在那篇中要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。

     而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。

     下面探讨一种称作主成分分析(PCA)的方法来解决部分上述问题。PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。


相关文章推荐

RELIEFF Feature Selection(RELIEFF特征选择) Python实现

写在前面: 依旧是因为

特征选择(feature selection)

特征选择 feature selection终于有时间把好久之前就想写的关于特征选择的基本介绍补上来了,主要想从以下几个方面介绍: 1. 特征选择的动机-为什么要特征选择 2. 常见的特征...

特征选择(Feature Selection)

交叉验证 直接介绍k折叠交叉验证(k-fold cross validation): 1 1.      特征选择 1.1      相关系数 先考虑对连续的输出y进行预测,皮尔森相关性系数...

斯坦福大学机器学习——特征选择(Feature selection)

特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题,样本的特征数非常大,但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类,如果样本特征数超过了n,但假设函数的VC维...

总结 特征选择(feature selection)算法笔记

什么是特征选择 特征选择也称特征子集选择,或者属性选择,是指从全部特诊中选取一个特征子集,使构造出来的模型更好。 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多...

Scikit-learn:Feature selection特征选择和学习

http://blog.csdn.net/pipisorry/article/details/40200111特征工程的思维导图[机器学习之特征工程][知乎:在机器学习的项目中,特征是如何被找出来的?...

机器学习的特征选择(feature selection)

写在开头:刚开始接触机器学习,选择了周志华教授的《机器学习》作为入门教材,很不错的书籍,受益良多。没有使用matlab去编写代码,而是选择了使用python的scikit-learn的开发包,大致看了...
  • selous
  • selous
  • 2016年11月30日 22:11
  • 706

RELIEF Feature Selection(RELIEF特征选择) Python实现

之所以会有这篇文章也是因为

Computational Methods of Feature Selection

  • 2016年01月03日 23:04
  • 183KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:feature selection (互信息 去掉和类标签无关特征 + PCA)
举报原因:
原因补充:

(最多只允许输入30个字)