机器学习是什么

转载 2014年01月22日 10:48:02

不久以前读的一篇好文,主要是讲机器学习到底是属于什么学科或者研究领域,同时也介绍到了ML与AI之间的关系。作者是南京大学的周志华老师。废话少说,直接上文章。

-------------------------------------------------------


      机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。

      不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。

      问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢?

      很多人可能没有意识到,所谓的machine learning community,现在至少包含了两个有着完全不同的文化、完全不同的价值观的群体,称为machine learning "communities"也许更合适一些。


      第一个community,是把机器学习看作人工智能分支的一个群体,这群人的主体是计算机科学家。现在的“机器学习研究者”可能很少有人读过1983年出的“Machine Learning: An Artificial Intelligence Approach”这本书。这本书的出版标志着机器学习成为人工智能中一个独立的领域。它其实是一部集早期机器学习研究之大成的文集,收罗了若干先贤(例 如Herbert Simon,那位把诺贝尔奖、图灵奖以及各种各样和他相关的奖几乎拿遍了的科学天才)的大作,主编是Ryszard S. Michalski(此君已去世多年了,他可算是机器学习的奠基人之一)、Jaime G. Carbonell(此君曾是Springer的LNAI的总编)、Tom Mitchell(此君是CMU机器学习系首任系主任、著名教材的作者,机器学习界没人不知道他吧)。Machine Learning杂志的创刊,正是这群人努力的结果。这本书值得一读。虽然技术手段早就日新月异了,但有一些深刻的思想现在并没有过时。各个学科领域总有 不少东西,换了新装之后又粉墨登场,现在热火朝天的transfer learning,其实就是learning by analogy的升级版。

      人工智能的研究从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,是有一条自然、清晰的脉络(打个现在火热的比方,从设计特征到学习特征,转载者注)。人工智能出身的机器学习研究者,绝大部分是把机器学习作为实现人工智能的一个途径,正如1983年的书名那样。他们关注的是人工智能中的问题,希望以机器学习为手段,但具体采用什么样的学习手段,是基于统计的、代数的、还是逻辑的、几何的,他们并不care。

      这群人可能对统计学习目前dominating的地位未必满意。靠统计学习是不可能解决人工智能中大部分问题的,如果统计学习压制了对其他手段的研究,可能不是好事。这群人往往也不care在文章里show自己的数学水平,甚至可能是以简化表达自己的思想为荣。人工智能问题不是数学问题,甚至未必是依靠数学能够解决的问题。人工智能中许多事情的难处,往往在于我们不知道困难的本质在哪里,不知道“问题”在哪里。一旦“问题”清楚了,解决起来可能并不困难。


      第二个community,是把机器学习看作“应用统计学”的一个群体,这群人的主体是统计学家。

      和纯数学相比,统计学不太“干净”,不少数学家甚至拒绝承认统计学是数学。但如果和人工智能相比,统计学就太干净了,统计学研究的问题是清楚的,不象人工智能那样,连问题到底在哪里都不知道。在相当长时间里,统计学家和机器学习一直保持着距离。慢慢地,不少统计学家逐渐意识到,统计学本来就该面向应用,而机器学习天生就是一个很好的切入点。因为机器学习虽然用到各种各样的数学,但要分析大 量数据中蕴涵的规律,统计学是必不可少的。统计学出身的机器学习研究者,绝大部分是把机器学习当作应用统计学。他们关注的是如何把统计学中的理论和方法变 成可以在计算机上有效实现的算法,至于这样的算法对人工智能中的什么问题有用,他们并不care。

      这群人可能对人工智能毫无兴趣,在他们眼中,机器学习就是统计学习,是统计学比较偏向应用的一个分支,充其量是统计学与计算机科学的交叉。这群人对统计学习之外的学习手段往往是排斥的,这很自然,基于代数的、逻辑的、几何的学习,很难纳入统计学的范畴。

      两个群体的文化和价值观完全不同。第一个群体认为好的工作,第二个群体可能觉得没有技术含量甚至读到第一个群体的论文时,你会觉得这很“水”,这没什么太大的contribution。这表明你已经不知不觉受第二类群体影响了。转载者注)。但第一个群体可能恰恰认为,简单的才好,正因为很好地抓住了问题本质,所以问题变得容易解决。第二个群体欣赏的工作,第一个群体可能觉得是故弄玄虚,看不出他想解决什么人工智能问题,根本就不是在搞人工智能、搞计算机,但别人本来也没说自己是在“搞人工智能”、“搞计算机”,本来就不是在为人工智能做研究。


      两个群体各有其存在的意义,应该宽容一点,不需要去互较什么短长。但是既然顶着Machine Learning这个帽子的不是“一伙儿”,而是“两伙儿”,那么要“跟进”的新人就要谨慎了,先搞清楚自己更喜欢“哪伙儿”。

      引两位著名学者的话结尾,一位是人工智能大奖得主、一位是统计学习大家,名字我不说了,省得惹麻烦:


      “I do not come to AI to do statistics”

      “I do not have interest in AI”

机器学习是什么?

作者:周志华 机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。 不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。 问题是,...
  • peghoty
  • peghoty
  • 2014年02月25日 14:17
  • 2251

机器学习 - MLE、MAP、BP

以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型...
  • ZK_J1994
  • ZK_J1994
  • 2017年01月03日 20:45
  • 1529

机器学习常用术语: epoch batch_size iteration

one epoch = one forward pass and one backward pass of all the training examples batch size = the num...
  • u012436149
  • u012436149
  • 2017年03月14日 22:02
  • 1704

机器学习的基本模型

机器学习的各种算法在于如何使用特定函数与已知的数据集相匹配,从而达到训练和测试的目的。本篇文章对一些近似的模型做一些相应的介绍。 线性模型 一维输入变量 假设学习对象ff函数的输入是一组...
  • cainiaozr
  • cainiaozr
  • 2015年11月01日 15:20
  • 4681

机器学习为什么需要训练,训练出来的模型具体又是什么?

解释一: 机器学习中大概有如下步骤: 确定模型----训练模型----使用模型。 模型简单说可以理解为函数。 确定模型是说自己认为这些数据的特征符合哪个函数。 训练模型就是用已有的数据,通过一些方法...
  • DATA8866
  • DATA8866
  • 2017年03月03日 16:04
  • 2320

机器学习--误差理论

本文转自:  http://blog.csdn.net/linkin1005/article/details/42563229 一、偏倚(bias)和方差(variance) 在讨论线性回...
  • Sunshine_in_Moon
  • Sunshine_in_Moon
  • 2015年06月08日 16:53
  • 825

机器学习的精确率P,召回率R和F-score

数据集中 : 正例 反例 我们的预测 正例 : A B 我们的预测 反例 : C D 精确率P:就是A/(A+B),通俗化意思是“我们...
  • qq_27437967
  • qq_27437967
  • 2017年05月12日 11:30
  • 386

一篇关于机器学习的温和指南

机器学习是人工智能的一个分支,它通过构建算法让计算机学习,并且在数据集上使用这些算法来完成任务,而不需要进行明确编码。 明白了吗?我们可以让机器去学习如何做事情!当我第一次听到它的时候,让我非常...
  • zrjdds
  • zrjdds
  • 2015年12月13日 11:27
  • 2549

机器学习里的kernel是指什么?

先给个定义:核函数K(kernel function)就是指K(x, y) = ,其中x和y是n维的输入值,f(·) 是从n维到m维的映射(通常而言,m>>n)。是x和y的内积(inner produ...
  • GoodShot
  • GoodShot
  • 2017年01月11日 07:31
  • 1199

机器学习几个重要概念

几个重要概念监督学习与非监督学习统计学习的算法可以分为以下几个类别:监督学习、非监督学习、半监督学习以及强化学习。监督学习的输入数据都有对应的类标签或是一个输出值,其任务是学习一个模型,使模型能够对任...
  • tuqinag
  • tuqinag
  • 2015年07月17日 20:07
  • 2811
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习是什么
举报原因:
原因补充:

(最多只允许输入30个字)