特征学习:学习之海中的遗珠

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
//【无名】

特征学习是通过一套算法从数据中学到一个模型,该模型将原始数据的状态转换到新的空间(一般称之为特征空间)。然后,我们将转换的数据喂给熟悉的机器学习算法,得到聚类模型、分类模型、或者是回归模型。如果在后续学习条件与算法都相同的情况下,利用转换的数据学习的效果比原数据更好,那么将状态转换到新空间是有意义的。除了特征学习之外,我们也可以通过人工的方式设计与构建转换模型。人工与学习的特征构建方法合称为特征工程。 人工特征构建领域存在一些重要的技术,但它更多的还是依赖设计者关于当前学习任务的先验知识。我们在构建一个完整的学习任务过程中,往往会无意识【我们都很乐意使用已经存在的先验知识】的使用人工构建特征的方式。与人工特征构建与不同,特征学习并不需要针对每个学习任务单独设计特征,它只需要一个学习算法便可以自动地从数据中学到将原始状态转换到特征空间的模型,并且学习到的特征往往包含人工难以构造的高级特征形式,同时最大程度剔除人的主观性。但是,这个算法的设计需要依赖更高级的科学知识。本文不打算写成一篇综术文章,主要原因是本人关于特征学习的知识还不足以写出一篇完备又有趣的综述文章【主要还是没太多时间整理】。本文会对一些特征学习方法进行介绍、分析并给出应用例子与程序。希望本文能起到抛砖引玉的作用,就像一串堂前风铃的作用,让看不见风的人看到风,进而学会感受风,制造风,风又响铃…。

1. 为什么需要特征学习

不管是无监督数据的聚类问题【前提:相似的数据聚集在一起】,还是有监督的分类与回归问题【前提:相似的输入得到相似的输出】,这些机器学习方法都需要度量计算数据点之间的距离(也即相似性)。

传统的距离度量主要有:欧式距离,城市距离,余弦距离等等。由于原始数据的输入各维度可能代表不同的物理意义、各维度的尺度与重要程度也可能不一样,状态中甚至包含冗余的维度,这使得真正相关、重要的特征对后面学习的贡献被淹没掉了。 因此,直接利用传统的距离度量公式在原始数据上度量各样本的相似性,往往得不到理想的学习效果。

到此我们便知道有两条路来解决上面的问题:1)通过学习【设计】距离度量函数使之更有效的度量样本的相似性<度量学习>;2)通过学习【设计】转换模型将原始的状态转换成更有效的特征<降维、特征选择、稀疏学习>。在周志华老师西瓜书第10章中的度量学习内容便与前者对应,第10章中的降维与11章则与后者对应。仔细了解过度量学习后,你会发现学习到的度量函数只需稍加变形就可得到一个转换矩阵,该矩阵将状态转换到新的空间。

在本文中,度量学习、降维、特征选择、以及稀疏表示都被称之为特征学习。其目的为 通过一套算法从数据中学到一个模型,该模型将原始数据的状态转换到新的空间(一般称之为特征空间),让后续机器学习的效果变得更好
在这里插入图片描述
技术进步的内驱力是人的惰性,人类的进化史也是一部人类的变懒史。深度学习这项万金油技术,让我们忽视特征学习(甚至是特征工程)太久。特别是以深度学习为敲门砖进入机器学习领域的小伙伴们,在初期通常不知特征工程(特征学习)为何物,就算不小心瞥见相关的词汇也只是不以为意的【内心独白:崭新的9102年怎么还会用这么古老的技术】匆匆翻过。

深度学习需不需要特征学习?答案是肯定的——需要。在一些基于视觉数据的学习任务中,特征学习是作为深度神经网络的一部已经融合到深度学习中。此时,深度学习本身就作为一种强大的自动化特征工具,能够自动的学习各种高级的特征。但是,除了视觉学习任务,像语音、文本学习任务,特征工程仍是一项必不可少的工作。不管是特征学习已经隐匿的机器视觉任务,还是需要独立特征工程的其它深度学习任务,如果能在特征层面去理解学习任务,相信你能设计出更有效的学习模型。

深度学习需要特征学习,那么与特征学习关系更为明晰的传统机器学习方法应该就不需要费笔墨来言明了。

刘慈欣的著作《赡养上帝》中结尾部分,上帝被人类赶回破旧的飞船上时,其中一位衣衫褴褛的上帝首领说:我们回去要好好学习,从解一元二次方程学起,慢慢的把以前的知识都掌握了,然后把飞船修好,过上独立自强的生活。

2.介绍几个经典的特征学习方法

2.1 从主成分分析到发育网络的核心算法

*****************************************************未完,挤牙膏式更新中…

2.2 从线性判别分析(LDA)到IHDR

2.3 从字典学习到近似线性独立准则(ALD)

2.4 流形学习(Isomap与LLE)

2.5 核回归度量学习(MLKR)

2.6 RReliefF

2.7 卡方检验

3. 总结

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

windSeS

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值