浅谈对于机器学习的理解

最新推荐文章于 2024-07-30 01:28:06 发布

__tian__

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量7.6k

点赞数 3

分类专栏： ML 文章标签：机器学习

本文链接：https://blog.csdn.net/T_I_A_N_/article/details/85914097

版权

ML 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

浅谈对于机器学习的理解

摘要：人工智能学科自 1956 年诞生以来，便长期处于计算机学科的前沿地位。我认为当代人工智能的发展的一个重要分支是基于机器学习与深度学习的弱人工智能，即使机器在完成任务时，更“聪明”一些。

关键词：人工智能机器学习

1 引言

人工智能（Artificial Intelligence）是目前引领计算机行业发展的重要力量之一，图灵奖更是于 2010 年与 2011 年，连续两年度均授予了为人工智能做出突出贡献的科学家莱斯利·瓦伦特和朱迪亚·珀尔。然而就是这样一个计算机科学领域的重要分支，自学科诞生以来便没有一个明确的定义。

人工智能学科一路走来历经了三个重要的阶段：推理期、知识期以及当前流行的学习期。首当其冲的便是推理期。很长一段时间，我们把逻辑推理能力作为人工智能的重要衡量标准。在这一时期，最有代表性的成就便是艾伦·纽厄尔和赫特·西蒙开发的自动定理证明系统，后来这两位也因为这个贡献加冕了 1975 年的图灵奖。

第二个时期便是知识期。人们很快发现，仅有逻辑推理能力是远远不够的，还需要辅以大量的知识储备。于是专家系统应运而生。图 1 为一般专家系统的结构框架。

为专家系统做出突出贡献的爱德华·费根鲍姆荣获 1994年的图灵奖。时至今日，专家系统依然是绝大多数服务类软件的基础架构。

第三阶段也便是我们所熟知的当前空前繁荣的机器学习时期。专家系统问世后不久人们便发现，如何建模将知识传递给专家系统成为了最大的难题。学习无疑是获取知识的最有效途径，因此机器学习的概念便应运而生。

机器学习这一概念自诞生以来便受到各行业人士的追捧。一篇发表于《Computer World》中的文章详尽的解析了雇主们无法拒绝的 12 项计算机相关技能时，机器学习力压群雄夺得榜首。随着大数据时代的到来，所需处理的数据规模也越来越大，机器学习也逐步渗透到了人们生活工作的方方面面。图 2为大规模机器学习流程的构建与部署。

2 机器学习与人工智能的关系

有人说，人工智能（AI）是未来，人工智能是科幻，人工智能也是我们日常生活中的一部分。这些评价可以说都是正确的，就看你指的是哪一种人工智能。

今年早些时候，Google DeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。在媒体描述DeepMind胜利的时候，将人工智能（AI）、机器学习（machine learning）和深度学习（deep learning）都用上了。这三者在AlphaGo击败李世乭的过程中都起了作用，但它们说的并不是一回事。

今天我们就用最简单的方法——同心圆，可视化地展现出它们三者的关系和应用。

如图3，人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，当今人工智能大爆炸的核心驱动。

2.1从概念的提出到走向繁荣

1956年，几个计算机科学家相聚在达特茅斯会议（Dartmouth Conferences），提出了“人工智能”的概念。其后，人工智能就一直萦绕于人们的脑海之中，并在科研实验室中慢慢孵化。之后的几十年，人工智能一直在两极反转，或被称作人类文明耀眼未来的预言；或者被当成技术疯子的狂想扔到垃圾堆里。坦白说，直到2012年之前，这两种声音还在同时存在。

2.2 人工智能（Artificial Intelligence）——为机器赋予人的智能

人工智能的定义可以分为两部分，即“人工”和“智能”。“人工”比较好理解，争议性也不大。有时我们会要考虑什么是人力所能及制造的，或者人自身的智能程度有没有高到可以创造人工智能的地步，等等。但总的来说，“人工系统”就是通常意义下的人工系统。

关于什么是“智能”，就问题多多了。这涉及到其它诸如意识（CONSCIOUSNESS）、自我（SELF）、思维（MIND）（包括无意识的思维（UNCONSCIOUS_MIND））等等问题。人唯一了解的智能是人本身的智能，这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限，对构成人的智能的必要元素也了解有限，所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。

人工智能在计算机领域内，得到了愈加广泛的重视。并在机器人，经济政治决策，控制系统，仿真系统中得到应用。尼尔逊教授对人工智能下了这样一个定义：“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为：“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。

人工智能是计算机学科的一个分支，二十世纪七十年代以来被称为世界三大尖端技术之一（空间技术、能源技术、人工智能）。也被认为是二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一。这是因为近三十年来它获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果，人工智能已逐步成为一个独立的分支，无论在理论和实践上都已自成一个系统。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科，其范围已远远超出了计算机科学的范畴，人工智能与思维科学的关系是实践和理论的关系，人工智能是处于思维科学的技术应用层次，是它的一个应用分支。从思维观点看，人工智能不仅限于逻辑思维，要考虑形象思维、灵感思维才能促进人工智能的突破性的发展，数学常被认为是多种学科的基础科学，数学也进入语言、思维领域，人工智能学科也必须借用数学工具，数学不仅在标准逻辑、模糊数学等范围发挥作用，数学进入人工智能学科，它们将互相促进而更快地发展。

2.3 机器学习—— 一种实现人工智能的方法

学习是人类具有的一种重要智能行为，但究竟什么是学习，长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其不同的看法。

比如，Langley（1996) 定义的机器学习是“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。Tom Mitchell的机器学习(1997)对信息论中的一些概念有详细的解释,其中定义机器学习时提到，“机器学习是对能通过经验自动改进的计算机算法的研究”。 Alpaydin同时提出自己对机器学习的定义，“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”

尽管如此，为了便于进行讨论和估计学科的进展，有必要对机器学习给出定义，即使这种定义是不完全的和不充分的。顾名思义，机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算机等等。

机器能否象人类一样能具有学习能力呢？1959年美国的塞缪尔(Samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与哲学问题。

机器的能力是否能超过人的，很多持否定意见的人的一个主要论据是：机器是人造的，其性能和动作完全是由设计者规定的，因此无论如何其能力也不会超过设计者本人。这种意见对不具备学习能力的机器来说的确是对的，可是对具备学习能力的机器就值得考虑了，因为这种机器的能力在应用中不断地提高，过一段时间之后，设计者本人也不知它的能力到了何种水平。

机器学习有下面几种定义： “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

3 机器学习的主要分类方法

目前学界主流的机器学习分类方法之一是基于学习方法，即根据对输入、输出数据流的限制可将机器学习划分为：监督式学习、非监督式学习以及强化学习。

3.1监督学习

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象（通常为矢量）和一个期望的输出值（也称为监督信号）组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

正如人们通过已知病例学习诊断技术那样，计算机要通过学习才能具有识别各种事物和现象的能力。用来进行学习的材料就是与被识别对象属于同类的有限数量样本。监督学习中在给予计算机学习样本的同时，还告诉计算各个样本所属的类别。若所给的学习样本不带有类别信息,就是无监督学习。任何一种学习都有一定的目的,对于模式识别来说，就是要通过有限数量样本的学习，使分类器在对无限多个模式进行分类时所产生的错误概率最小。

不同设计方法的分类器有不同的学习算法。对于贝叶斯分类器来说，就是用学习样本估计特征向量的类条件概率密度函数。在已知类条件概率密度函数形式的条件下，用给定的独立和随机获取的样本集，根据最大似然法或贝叶斯学习估计出类条件概率密度函数的参数。例如，假定模式的特征向量服从正态分布，样本的平均特征向量和样本协方差矩阵就是正态分布的均值向量和协方差矩阵的最大似然估计。在类条件概率密度函数的形式未知的情况下，有各种非参数方法，用学习样本对类条件概率密度函数进行估计。在分类决策规则用判别函数表示的一般情况下,可以确定一个学习目标,例如使分类器对所给样本进行分类的结果尽可能与“教师”所给的类别一致，然后用迭代优化算法求取判别函数中的参数值。

在无监督学习的情况下，用全部学习样本可以估计混合概率密度函数，若认为每一模式类的概率密度函数只有一个极大值，则可以根据混合概率密度函数的形状求出用来把各类分开的分界面。

监督学习方法是目前研究较为广泛的一种机器学习方法，例如神经网络传播算法、决策树学习算法等已在许多领域中得到成功的应用，但是，监督学习需要给出不同环境状态下的期望输出（即导师信号），完成的是与环境没有交互的记忆和知识重组的功能，因此限制了该方法在复杂的优化控制问题中的应用。

3.2无监督学习

现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

聚类算法一般有五种方法，最主要的是划分方法和层次方法两种。划分聚类算法通过优化评价函数把数据集分割为K个部分，它需要K作为输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。层次聚类由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

4 结语

人工智能(AI)与机器学习经常被混淆，但它们不是一回事。人工智能是指机器执行智能任务的能力，而机器学习是指机器清除数据中有意义模式的自动化过程。没有机器学习，人工智能无法实现。

人工智能学科一路走来，学科分支也不断发展壮大。而机器学习作为目前应用最为广泛、影响最为深刻的分支之一也在不断地发展着：愈来愈多的算法涌现，越来越多的非计算机学科使用机器学习算法等也从侧面映证了这一观点：当代人工智能的发展的一个重要分支是基于机器学习与深度学习的弱人工智能，即使机器在完成任务时，更“聪明”一些。