【深度学习之美01】什么是(机器/深度)学习?

1.1 什么是学习?

说到“深度学习”,追根溯源,我们需要先知道什么是“学习”。

著名学者赫伯特·西蒙教授(Herbert Simon,1975年图灵奖获得者、1978年诺贝尔经济学奖获得者)曾对“学习”下过一个定义:“如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习”。

大师果然名不虚传,永远都是那么言简意赅,一针见血。从西蒙教授的观点可以看出,学习的核心目的就是改善性能。

其实对于人而言,这个定义也是适用的。比如,我们现在正在学习深度学习的知识,其本质目的就是为了提升自己在机器学习上的认知水平。如果我们仅仅是低层次的重复性学习,而没有达到认知升级的目的,那么即使表面看起来非常勤奋,其实也仅仅是一个“伪学习者”,因为我们没有改善性能。

按照这个解释,那句著名的口号“好好学习,天天向上”,就会焕发新的含义:如果没有性能上的“向上”,即使非常辛苦地“好好”,即使长时间地“天天”,都无法算作“学习”。

1.2 什么是机器学习?

遵循西蒙教授的观点,对于计算机系统而言,通过运用数据及某种特定的方法(比如统计方法或推理方法)来提升机器系统的性能,就是机器学习(Machine Learning,简称ML)。

英雄所见略同。卡耐基梅隆大学的机器学习和人工智能教授汤姆·米切尔(Tom Mitchell),在他的经典教材《机器学习》[1]中,也给出了更为具体(其实也很抽象)的定义:

对于某类任务(Task,简称T)和某项性能评价准则(Performance,简称P),如果一个计算机程序在T上,以P作为性能的度量,随着经验(Experience,简称E)的积累,不断自我完善,那么我们称这个计算机程序从经验E中进行了学习。

比如,学习围棋的程序AlphaGo,它可以通过和自己下棋获取经验,那么,它的任务T就是“参与围棋对弈”,它的性能P就是用“赢得比赛的百分比”来度量的。类似的,学生的任务T就是“上课看书写作业”,它的性能P就用“考试成绩”来度量。

v2-ae54e03d964a01d419fa4c57cf9f2aaa_hd.jpg

AlphaGo(工程化的大脑)

因此,Mitchell教授认为,对于一个学习问题,我们需要明确三个特征:任务的类型、衡量任务性能提升的标准以及获取经验的来源。

事实上,看待问题的角度不同,机器学习的定义也略有不同。比如,支持向量机(SVM)的主要提出者弗拉基米尔·万普尼克(Vladimir Vapnik),在其著作《统计学习理论的本质》[2]中就提出,

“机器学习就是一个基于经验数据的函数估计问题”。

而在另一本由斯坦福大学统计系的特雷弗·哈斯蒂(Trevor Hastie)等人编写的经典著作《统计学习基础》[3]则认为,

机器学习就是“抽取重要的模式和趋势,理解数据的内涵表达,即从数据中学习(to extract important patterns and trends, and understand “what the data says. We call this learning from data)”。

这三个有关机器学习的定义,各有侧重,各有千秋。Mitchell的定义强调学习的效果;Vapnik的定义侧重机器学习的可操作性;而Hastie等人的定义则突出了学习任务的分类。但其共同的特点在于,都强调了经验和数据的重要性,都认可机器学习提供了从数据中提取知识的方法[4]。

当下,我们正处于大数据时代。众所周知,大数据时代的一个显著特征就是,“数据泛滥成灾,信息超量过载,然而知识依然匮乏不堪”。因此,能自动从大数据中获取知识的机器学习,必然会在大数据时代的舞台上扮演重要角色。

1.3 什么是深度学习?

经典机器学习,通常是用人类的先验知识,把原始数据预处理成各种特征(Feature),然后对特征进行分类。然而,这种分类的效果,高度取决于特征选取的好坏。传统的机器学习专家们,把大部分时间都花在如何寻找更加合适的特征上。因此,早期的机器学习专家非常辛苦。传统的机器学习,其实可以有一个更合适的称呼—特征工程(Feature Engineering)。

后来,机器学习的专家们发现,可以让神经网络自己学习如何抓取数据的特征,这种学习方式的效果似乎更佳。于是兴起了特征表示学习(Feature Representation Learning)的风潮。这种学习方式,对数据的拟合也更加灵活好用。于是,人们终于从自寻特征的痛苦生活中解脱了出来。

但这种解脱也需要付出代价,那就是机器自己学习出来的特征,它们存在于机器空间,完全超越了人类理解的范畴,对人而言,这就是一个黑盒世界。为了让神经网络的学习性能表现得更好,人们只能依据经验,不断尝试性地进行大量重复的网络参数调整,同样是苦不堪言。于是,人工智能领域就有了这样的调侃:

“有多少人工,就有多少智能”。

因此,你可以看到,在这个世界上,存在着一个“麻烦守恒定律”:

麻烦不会减少,只会转移

再后来,网络进一步加深,出现了多层次的“表示学习”,它把学习的性能提升到另一个高度。这种学习的层次多了,其实也就是套路深了。于是,人们就给它取了一个特别的名称—Deep Learning(深度学习)。

简单来说,深度学习就是一种包括多个隐含层(越多即为越深)的多层感知机。它通过组合低层特征,形成更为抽象的高层表示,用以描述被识别对象的高级属性类别或特征。能自生成数据的中间表示(虽然这个表示并不能被人类理解),是深度学习区别于其他机器学习算法的独门绝技。

1.4 深度学习和机器学习的区别

以模式分类为例,在传统的机器学习把特征提取和分类处理为两个独立的步骤,整个学习流程,需要人为的划分子问题。而以CNN为代表的深度学习,则为我们提供了另一种范式(paradigm),即“端到端(end-to-end)”学习方式,它把特征提取和分类任务合二为一,完全交给深度学习模型,直接学习从原始输入到期望输出的映射。如图所示。

v2-b02d362ad1979d6a1bd91bd9fb625472_hd.jpg

传统模式分类与深度神经网络的区别与联系

这里“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端)。整个学习流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始输入到期望输出的映射。

【参考文献】

[1] Tom Mitchell. 曾华军等译. 机器学习[M]. 北京: 机械工业出版社, 2002.

[2] Vladimir N. Vapnik. 张学工译. 统计学习理论的本质[M]. 北京: 清华大学出版社, 2000.

[3] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning[M]. 北京: 世界图书出版公司, 2015.

[4] 于剑. 机器学习:从公理到算法[M]. 北京: 清华大学出版社, 2017.

本文节选自《 深度学习之美:AI时代的数据处理与最佳实践》(张玉宏著,电子工业出版社,2018年7月出版)
(连载待续)

转载于:https://my.oschina.net/zhangyuhong/blog/1932813

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值