前言:
最近做的任务与降维分类有关,于是乎就将机器学习中的“四大元老”——降维、聚类、分类、回归给弄混了。。。。。因此,用了很长时间去理解这“四大元老”的具体概念。并借此机会,趁热打铁得记录一下。
1.机器学习
什么是机器学习?
机器学习是一帮科学家想让计算机像人一样思考所研发出来的一套计算机理论。它包含了多种算法,涉及到概率论,数理统计、线性代数、矩阵论等多个学科。
机器学习已经深入到了我们生活的方方面面,为我们提供了很多便捷。比如:我们的邮箱会对我们所有到的邮件进行筛选,将垃圾邮件放入垃圾箱;我们所使用的购物软件,会按照我们平时的购物习惯,商品浏览信息等,对我们进行好物推荐;我们浏览的网页,浏览器会根据我们经常关注的信息,为我们推荐新闻、娱乐、八卦等各种信息……
日常生活中,机器学习的应用,第一个提到的就是最具代表性的公司:Google,他们所研发的Google Now,Google Photos都是基于机器学习的产物;在百度,图片识别也应用到了机器学习中的视觉处理系统;与此同时,各种各样的企业都开始尝试把自己的产品往机器学习上靠拢,比如金融公司的汇率预测,股票涨跌,房地产公司的房价预测等等。
实现机器学习的方法就是我们所称的“算法”。目前所有的机器学习算法大概可以被分为4~5类。
(1)监督学习
如果在学习过程中,我们不断的向计算机提供数据和这些数据所对应的值(这里的“值”就是“标签”,label),比如给计算机看猫和狗的照片,告诉计算机哪些照片是猫,哪些照片是狗,然后通过这种指引的方式,让计算机去学习如何将照片对应上照片所代表的物体(猫或狗),从而再遇到照片时,它能自己判断照片是猫还是狗。这就叫“监督学习(supervised learning)”。这里的“照片”就是我们给计算机提供的数据;这里的“猫或狗”,就是这些数据所对应的值,也就是标签。
监督学习中的“标签”就是起到一个监督的作用。预测房屋的价格,股票的涨停就可以使用监督学习实现。
(2)非监督学习
如果同样在上述的学习过程中,我们只给计算机提供猫和狗的照片,并不告诉计算机哪些照片是猫,哪些照片是狗,让计算机自己去判断和分类,总结出这两种类型照片的不同之处。这就是“非监督学习(un-supervised learning)”。
非监督学习中,不用提供数据所对应的标签信息,计算机通过观察各种数据之间的特性,会发现这些特性背后的规律,这些规律也就是非监督方法所学习到的东西。
(3)半监督学习
有一种方法综合了监督学习和非监督学习的特征,这种方法叫“半监督学习(semi-supervised learning)”。它主要考虑如何使用少量的 有标签样本 和 大量的没有标签的样本 进行训练和分类。
(4)强化学习
在规划机器人的行为准则方面,一种机器学习方法叫做“强化学习(reinforcement learning)”。就是把计算机丢到一个对于它来说是一个完全陌生的环境 或者 让它完成一项从未接触过的任务,它会尝试各种手段,最后让自己成功适应这一个陌生环境。Google开发的AlphaGO就是应用了这一种学习方式。
(5)遗传算法
有一种和强化学习类似的学习方法,叫做“遗传算法(Genetic algorithm)”。这种方法是模拟我们所熟知的进化理论,淘汰弱者,适者生存。通过这种淘汰机制去选择最优的设计或模型。比如,开发者开发计算机学会玩“超级玛丽”,最开始的玛丽1代可能不久就牺牲了,不过系统会基于1代的玛丽随机生成玛丽2代,然后再保存这些代中最厉害的玛丽,淘汰掉比较弱的玛丽。然后再次基于强者“繁衍和变异”,生成更强的玛丽。这就是遗传算法的基本思想。
今天我主要总结的概念是:降维、聚类、分类、回归。上面我们大概了解了机器学习的相关内容。我们来看看这“四大元老”之间的关系。
话不多说,请看图:
下图简要说明了四者:
2.降维
什么是降维?
试想一下现在有n个对象a1,a2,……,an,每个对象有多个属性x1,x2,……,xm。当我们用矩阵表示这些对象时,便是一个An×m的矩阵。举个实例:假设我们有5只猫,每只猫的毛色、体型