首先用图直观的展示AI与深度学习的关系。
不同AI系统的组成,其中阴影部分表示能从数据中学习的组件。
神经网络的众多名称和命运变迁
深度学习可以追溯到20世纪40年代。深度学习看似是一个全新的领域,其实,它只不过在这几年流行前还比较冷门而已,那时它被赋予了许多名字,反应了当时不同研究人员和不同的观点。目前,它被大众接受为“深度学习”。
一般认为,迄今为止深度学习经历了三次发展浪潮:20世纪40年代到60年代深度学习的雏形出现在控制论(cybernetics)中;20世纪80年代到90年代深度学习表现为联结主义(connectionism)中;直到2006年,才真正以深度学习之名复兴。
我们今天知道的一些最早的深度学习算法,旨在模拟生物学习的计算模型,即大脑怎么学习或为什么能学习的模型。在那时,深度学习模型被认为是受生物大脑所启发而设计出来的系统。但他们一般都没有设计成生物功能的真实模型。深度学习的神经观点受两个主要思想启发:
- 大脑作为例子证明智能行为是可能的,因此,概念上,建立智能的直接途径是逆向大脑背后的计算原理,并复制其功能。
- 理解大脑和人类智能背后的原理也非常有趣,因此,机器学习模型除了解决工程应用的能力,如果能帮助人类对这些基本的科学问题有进一步的认识也将会很有用。
下面开始简介各个浪潮的特点。
控制论
现代深度学习的最早前身是从神经科学的角度出发的简单线性模型。
f
(
x
,
w
)
=
x
1
w
1
+
⋅
⋅
⋅
+
x
n
w
n
f(x,w) = x_1w_1+···+x_nw_n
f(x,w)=x1w1+⋅⋅⋅+xnwn 它将一组输入与一个输出关联起来,模型中要的学习的是权重
w
w
w。
接下来,神经元被提出,它是脑功能的早期模型,该线性模型通过检验函数 f ( x , w ) f(x, w) f(x,w)的正负来识别两种不同类别的输入,这个模型需要正确设计权重后才能输出与期望相同的类别。
10年后,感知机被提出,它成为第一个能根据每个类别的输入样本来学习权重的模型。约在同一时期,自适应线性单元(adaptive linear element, ADALINE) 也被提出,它简单地返回函数 f ( x ) f(x) f(x)本身的值来预测一个实数,并且它还可以学习从数据预测这些数。基于感知机和ADALINE 中使用的函数 f ( x , w ) f(x,w) f(x,w)的模型被称为线性模型(linear model)。
这个时期所提出线性模型仍是目前最广泛使用的机器学习模型。此外,这个时期最大的贡献在于发明了随机梯度下降算法,它用于调节模型的权重,在稍加改进后的随机梯度下降算法仍然是当今深度学习的主要训练算法。
不得不说的是线性模型有许多局限性。最著名的是,它无法学习异或( X O R XOR XOR)函数。这导致神经网络热潮第一次大衰退。
联结主义
联结主义或并行分布处理潮流的出现导致了神经网络研究的第二次浪潮。联结主义的中心思想是,当网络将大量简单的计算单元连接在一起时可以实现智能行为。 这种见解同样适用于生物神经系统中的神经元,因为它和计算模型中隐藏单元起着类似的作用。在上世纪80 年代的联结主义期间形成的几个关键概念在今天的深度学习中仍然是非常重要的。
分布表示的中心思想是:系统的每一个输入都应该由多个特征表示,并且每一个特征都应该参与到多个可能输入的表示。
联结主义潮流的一个重要成就是:反向传播在训练具有内部表示的深度神经网络中的成功使用以及反向传播算法的普及。 目前它是训练深度模型的主导方法。
这段时间研究人员在使用神经网络进行序列建模的方面取得了重要进展,提出了长短期记忆(LSTM)网络。 。如今,LSTM 在许多序列建模任务中广泛应用,包括Google 的许多自然语言处理任务。
在这个时期,各种基于神经网络和其他AI技术的创业公司开始寻求投资,他们野心勃勃但不切实际,这导致了投资者感的失望。同时,机器学习的其他领域取得了进步(核方法、图模型)。这两个因素导致了神经网络热潮的第二次衰退,并一直持续到2007 年,同时人们还认为深度网络是难以训练的。
目前:2006—?
2006 年神经网络的研究有了巨大的突破。Geoffrey Hinton表明名为深度信念网络的神经网可以使用一种称为贪婪逐层预训练的策略来有效地训练。 其他研究小组很快表明,同样的策略可以被用来训练许多其他类型的深度网络并能系统地帮助提高在测试样例上的泛化能力。神经网络研究的这一次浪潮普及了“深度学习’’ 这一术语的使用,强调研究者现在有能力训练以前不可能训练的比较深的神经网络,并着力于深度的理论重要性上。此时,深度神经网络已经优于与之竞争的基于其他机器学习技术以及手工设计功能的AI 系统。
与日俱增的模型规模
现在神经网络非常成功的一个重要原因是我们现在拥有的计算资源可以运行更大的模型。几十年来,我们的机器学习模型中每个神经元的连接数量已经与哺乳动物的大脑在同一数量级上。
自从隐藏单元引入以来,人工神经网络的规模大约每2.4 年扩大一倍。根据现有的数据,除非有能力迅速扩展的新技术,否则至少要到21 世纪50 年代,人工神经网络将才能具备与人脑相同数量级的神经元。生物神经元表示的功能可能比目前的人工神经元所表示的更复杂,因此生物神经网络可能比图中描绘的甚至要更大。
与日俱增的精度、复杂度和对现实世界的冲击
20 世纪80 年代以来,深度学习提供精确识别和预测的能力一直在提高。而且,深度学习持续成功地被应用于越来越广泛的实际问题中。
对象识别中最大的比赛是每年举行的ImageNet 大型视觉识别挑战(ILSVRC)。深度学习迅速崛起的激动人心的一幕是卷积网络第一次大幅赢得这一挑战,它将最高水准的前5错误率从26.1% 降到15.3%。目前,深度学习的最新结果将这个比赛中的前5错误率降到了0.04%。
在深度网络的规模和精度有所提高的同时,它们可以解决的任务也日益复杂。
深度学习的另一个最大的成就是其在强化学习领域的扩展。在强化学习中,一个自主的智能体必须在没有人类操作者指导的情况下,通过试错来学习执行任务。DeepMind 表明,基于深度学习的强化学习系统能够学会玩Atari 视频游戏,并在多种任务中可与人类匹敌。深度学习也显著改善了机器人强化学习的性能。
许多深度学习应用都是高利润的。现在深度学习被许多顶级的技术公司使用,包括Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA和NEC 等。
深度学习也为其他科学做出了贡献。
总之,深度学习是机器学习的一种方法。在过去几十年的发展中,它大量借鉴了我们关于人脑、统计学和应用数学的知识。近年来,得益于更强大的计算机、更大的数据集和能够训练更深网络的技术,深度学习的普及性和实用性都有了极大的发展。未来几年充满了进一步提高深度学习并将它带到新领域的挑战和机遇。