周志华 《机器学习》之 第十一章(特征选择与稀疏学习)概念总结

原创 2016年08月29日 17:53:48

在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别。那么在提取到的众多特征中,如何有效的提取到能很好进行分类的特征呢?在识别过程中,往往通过经验总结,或直接的抽象特征作为判别条件。在机器学习中,周老师讲到的特征选择,我想也是对属性空间中所有特征,进行一个筛选,选择出有效特征。我想我们也可以理解成一种降维方法。去除干扰特征或无效特征的手段。因此在机器学习中我们可以认为特征选择是一个数据预处理过程,完成特征选择后,再进行训练学习器,最终完成良好的学习过程。

1、子集搜索与评价

特征:在给定的样本集中属性,我们将属性称为特征
相关特征:给定的属性集对当前学习任务有用的属性称为相关特征
无关特征:给定的属性集对当前学习任务无用的属性称为无关特征
特征选择:在给定的特征集合中选择出相关特征子集的过程,称为特征选择
冗余特征:所包含的信息能从其他特征中推演出来
前向搜索:给定一个子集,采用逐渐增加一个相关特征的策略称为前向搜索
后向搜索:从一个完整的特征集合开始,每次尝试去掉一个无关特征,这样逐渐减少特征的策略称为后向搜索
双向搜索:如果将前向搜索和后向搜索结合起来,每一次逐渐增加选定相关特征(这些特征在后续轮中将确定不会被去除),同时减少无关特征,这样的策略称为双向搜索
常见的特征选择方法可分为三类:过滤式、包裹式、嵌入式。

2、过滤式选择

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。

3、包裹式选择

包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。也就是在每次进行特征选择后,将新的特征集放入学习器中进行训练,通过训练的结果来对特征选择进行评价,如此进行循环。

4、嵌入式选择与L1正则化

嵌入式选择:过滤式和包裹式特征选择,有明显的特征选择过程和训练学习器的过程。而嵌入式选择则是将特征选择过程与学习器训练过程融合为一体,两者在同一个优化过程中完成,也就是在学习器训练过程中自动的进行特征选择。

5、稀疏表示与字典学习

加入将一个数据集用矩阵进行表示,其中每一行代表一个样本,每列则对应于一个特征,特征选择所考虑的问题是特征具有“稀疏性”,即矩阵中的许多列与当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需要较小的矩阵上进行,则学习任务难度将会所有降低,设计的计算和存储开销也会减少,因而学得的模型的可解释性也会提高。
如果给定的数据集是稠密的,如果利用稀疏性的优越性呢?因此就考虑是否可以将其数据集转化为稀疏表示的形式。周老师书中提到字典学习的方法来解决这种问题。

6、压缩感知

奈奎斯特采样定理
压缩感知分为 感知测量和重构恢复两个阶段
感知测量:关注如何将原始信号进行处理以获得稀疏样本表示
重构恢复:关注的是如何基于稀疏性从少量观测中恢复原信号

相关文章推荐

稀疏表示学习

1.提出问题:什么是稀疏表示 假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻找一个系...

字典学习/稀疏表示学习笔记

首先向大家安利一下南大周志华老师写的《机器学习》这本书,作为一个对此一窍不通的人看了都觉得很有意思,受益匪浅。语言平实却又干货十足,比某些故弄玄虚泛泛而谈的其它国内教材高到不知哪里去了。 ...
  • sam92
  • sam92
  • 2016年02月24日 16:10
  • 10722

特征选择与稀疏学习

第十一章   特征学习与稀疏学习https://stackedit.io/editor#1 子集搜索与评价 我们能用很多属性描述一个西瓜:色泽、根蒂、敲声、纹理、触感等! 根蒂、敲声!...
  • cyl9413
  • cyl9413
  • 2017年06月24日 20:54
  • 679

机器学习笔记(十一)特征选择和稀疏学习

11.特征选择和稀疏学习 11.1子集搜索与评价 对象都有很多属性来描述,属性也称为特征(feature),用于刻画对象的某一个特性。对一个学习任务而言,有些属性是关键有用的,而有些属性则可能不必要纳...

机器学习中的特征选择

首先声明,本人个人观点,仅供交流。 本人欠专业人士,并不了解显示实践中的特征工程。 特征选择是一个重要的数据预处理过程,获得数据之后要先进行特征选择然后再训练模型。主要作用:1、降维 2、去除不相关特...
  • rui307
  • rui307
  • 2016年04月25日 17:24
  • 6647

周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习

上篇主要介绍了经典的降维方法与度量学习,首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空间,接着分别介绍了kNN、MD...

机器学习的特征选择(feature selection)

写在开头:刚开始接触机器学习,选择了周志华教授的《机器学习》作为入门教材,很不错的书籍,受益良多。没有使用matlab去编写代码,而是选择了使用python的scikit-learn的开发包,大致看了...
  • selous
  • selous
  • 2016年11月30日 22:11
  • 721

机器学习(周志华) 参考答案 第十一章 特征选择与稀疏学习 11.1

机器学习(周志华) 参考答案 第十一章 特征选择与稀疏学习 11.1 机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article...

特征选择(feature selection)

特征选择 feature selection终于有时间把好久之前就想写的关于特征选择的基本介绍补上来了,主要想从以下几个方面介绍: 1. 特征选择的动机-为什么要特征选择 2. 常见的特征...

机器学习算法与Python实践之(一)k近邻(KNN)

机器学习算法与Python实践之(一)k近邻(KNN)zouxy09@qq.comhttp://blog.csdn.net/zouxy09        机器学习算法与Python实践这个系列主要是参...
  • zouxy09
  • zouxy09
  • 2013年11月26日 00:38
  • 131922
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:周志华 《机器学习》之 第十一章(特征选择与稀疏学习)概念总结
举报原因:
原因补充:

(最多只允许输入30个字)