浅谈对机器学习的理解

最新推荐文章于 2022-07-02 19:16:10 发布

步步为赢567

最新推荐文章于 2022-07-02 19:16:10 发布

阅读量7.4k

点赞数 4

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

http://www.njliaohua.com/lhd_3cxof67mgc175ln25rnx_1.html

浅谈对机器学习的理解

人工智能大师西蒙曾说过：“学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高。[1]”

提到学习，我们很自然地第一个会想起人类，学习是人类所具有的一种十分重要的智能行为，可以说人类的进化史就是一个漫长而卓越的学习过程。一个很经典的问题：“假设有一张色彩丰富的油画，画中画了一片茂密的森林，在森林远处的一棵歪脖树上，有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置，正常情况下不到一秒钟就可以指出猴子，甚至有的人第一眼就能看到那只猴子。”为什么人可以在成百上千种色彩构成的许多图案中一下就识别出猴子呢？原因很简单是经验，而经验告诉我们的所有信息都是通过以往的学习得到的。比如，提起猴子，我们脑海中就会潜意识出现以前见过的猴子的很多相关特征，只要画中的图案和浮现的猴子特征达到一定的相似度，就可以识别出那个图案是猴子。当然，也可能出现认错的情况，这是因为对某事物特征识别不够精确，还需要进一步学习。

机器学习，顾名思义，就是使机器模拟人类的这种学习能力。在计算机界机器一般指计算机，传统意义上，如果我们想让一台计算机工作，只要给它输入一串指令，然后让它遵照这个指令一步步执行下去即可。但机器学习是一种让计算机只能利用数据而不是遵循指令来进行各种工作的方法。那么计算机能否像人一样具有学习能力呢？1959年美国的塞缪尔(Samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军[2]。这个程序向人们展示了机器学习的能力，在计算机领域内造成了巨大的轰动。

通过上面的分析，我们可以看出机器学习和人类根据经验思考识别归纳的过程是类似的，不过它能考虑更多的情况，执行更加复杂的计算。事实上，机器学习的一个主要目的就是把人类根据经验思考识别归纳的过程转化为计算机通过对已有数据的处理计算得出某种规律模型，并根据该模型预测未来的方法。经过计算机处理得出的模型能够以近似于人的方式解决很多灵活复杂的问题[3]。

1997年Tom M. Mitchell在“Machine Learning”一书中给出了机器学习的经典定义——“计算机利用经验改善系统自身性能的行为[4]。”实质上，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎[5]。

由于机器不能像人类思维一样根据事物特征自然而然的选择分类方法，所以机器学习方法的选择依然还需要人工选择。目前，根据训练数据集有无标识可将机器学习方法分为三类：监督学习、半监督学习和无监督学习[6]。监督学习是利用一组已知类别的样本调整分类器的参数，使其达到所要求性能。在监督学习下，输入数据被称为训练数据，每组训练数据都有一个明确的标志或结果，也就是根据已知的信息推断未知的信息。其中常见的算法有Nave Bayes、SVM、决策树、KNN、神经网络以及Logistic分析等。半监督学习主要是利用少量标注样本和大量未标注样本进行训练和分类。在半监督学习下，输入数据部分被标识部分

未被标识，这类学习方法可以用来预测，但是必须首先知道学习数据的内在结构以便分类，也就是根据少量已知的信息和大量未知的信息进行分类。其中常见的算法有最大期望、生成模型和图算法等。无监督学习中所有数据均不被特别标记，该学习模型是为了推断出数据的一些内在结构，也就是及其完全自学。其中主要的算法有Apriori、FP树、K-means以及目前比较火的Deep Learning。很明显，无监督学习是最智能的，有能实现机器主动意识的潜质，但发展比较缓慢。监督学习是不太靠谱的，从已知的信息推断未知的信息就必须了解事物所有特性，这在现实中往往是不可能的。半监督学习是“没办法中的办法”，既然无监督学习很难而监督学习不靠谱，就只好两者折中各取所长。目前的发展是监督学习技术已然成熟，无监督学习还在起步，所以对监督学习方法进行修改实现半监督学习是目前的研究主流。

毫无疑问，在2010年以前，机器学习的应用在某些特定领域发挥了巨大的作用，如车牌识别，网络攻击防范，手写字符识别等等。但是，自从2010年以后，随着大数据概念的兴起，机器学习的大量应用都与大数据高度耦合，几乎可以认为大数据是机器学习应用的最佳场景。但凡你能找到的介绍大数据魔力的文章，都会说大数据如何准确预测到了某些事，例如经典的Google利用大数据预测H1N1在美国某小镇的爆发，百度预测2014年世界杯从淘汰赛到决赛全部预测正确[7]。是什么让大数据具有如此魔力？简单来说，就是机器学习。正是基于机器学习技术的应用，数据才能发挥其魔力。

大数据的核心是利用数据的价值，而机器学习是利用数据价值的关键技术。对于大数据而言，机器学习是不可或缺的。相反，对于机器学习而言，越多的数据会就越能提升模型的精确性，同时，机器学习算法复杂的计算时间也迫切需要分布式计算与内存计算等关键技术。因此，机器学习的兴盛也离不开大数据的帮助，大数据与机器学习互相促进相依相存。

机器学习是目前计算机最火一项技术之一，从网上淘宝到自动驾驶技术，以及网络攻击抵御系统等等，都有机器学习的应用。同时机器学习也是实现人工智能的核心技术，目前各种人工智能的应用都离不开机器学习技术，如微软小冰聊天机器人等。作为一名当代的计算机领域的开发或研究人员，我们都应该了解一些机器学习的相关知识，这可以让我们更好的理解当代科技的进程。

参考文献：

[1] 机器学习研究与应用新进展. [2] 机器学习研究现状和发展趋势. [3] 台大《机器学习基石》课堂笔记.

http://my.oschina.net/findbill/blog/206855?fromerr=zqvlrPYP.

[4] Mitchell, T.M. 著, 曾华军, 张银奎等译. 机器学习. 机械工业出版社, 2003. [5] Andrew Ng Courera Machine Learng.

[6] 伯乐在线.从机器学习开始.http://blog.jobbole.com/83400/. [7]李航博士:浅谈我对机器学习的理解.

http://www.open-open.com/news/view/1be1647.f.