摘要
深度学习允许由多个处理层组成的计算模型学习具有多个抽象层次的数据表示。这些方法极大地提高了语音识别、视觉物体识别、物体检测和许多其他领域(如药物发现和基因组学)的先进水平。深度学习通过使用反向传播算法来指出机器应该如何改变其内部参数,这些参数用于从上一层的表征中计算每一层的表征,从而发现大数据集中的复杂结构。深度卷积网在处理图像、视频、语音和音频方面带来了突破,而递归网则在文本和语音等顺序数据方面大放异彩。
一、机器学习
表征学习是一组方法,它允许向机器提供原始数据,并自动发现检测或分类所需的表征。深度学习方法是具有多层次表征的表征学习方法,通过组成简单但非线性的模块来获得,每个模块将一个层次的表征(从原始输入开始)转化为更高的、略微抽象的层次的表征。通过组成足够多的这样的转换,可以学到非常复杂的功能。对于分类任务,较高的表征层放大了输入中对辨别很重要的方面,并抑制了不相关的变化。
例如,一幅图像是以像素值阵列的形式出现的,第一层表征中学习到的特征通常代表图像中特定方向和位置的边缘的存在或不存在。第二层通常通过发现边缘的特定排列来检测图案,而不考虑边缘位置的微小变化。第三层可以将图案组合成较大的组合,对应于熟悉的物体的一部分,随后的层将检测物体作为这些部分的组合。深度学习的关键之处在于,这些特征层不是由人类工程师设计的:它们是使用通用的学习程序从数据中学习的。
二、监督学习
监督学习是最常见的机器学习形式,无论是否深入,都是监督学习。想象一下,我们想建立一个系统,可以将图像分类为,例如,房子、汽车、人或宠物。我们首先收集大量的房屋、汽车、人和宠物的图片数据,每张图片都标有其类别。在训练过程中,机器会显示一幅图像,并以分数向量的形式产生一个输出,每个类别都有一个分数。我们希望所需的类别在所有类别中得分最高,但这在训练前是不可能发生的。
我们计算一个目标函数,以衡量输出分数和所需分数模式之间的误差(或距离)。然后,机器会修改其内部可调参数,以减少这一误差。这些可调参数,通常被称为权重,是实数,可以被视为定义机器的输入-输出功能的 “旋钮”。在一个典型的深度学习系统中,可能有数以亿计的这些可调整的权重,以及数以亿计的标记实例来训练机器。
为了适当地调整权重向量,学习算法计算出一个梯度向量,对于每个权重,表明如果权重增加一个微小的量,误差会增加或减少多少。然后,权重向量将按照与梯度向量相反的方向调整。
总结
深度学习的未来 无监督学习在恢复对深度学习的兴趣方面起到了催化作用,但后来被纯粹的监督学习的成功所掩盖了。虽然我们在本评论中没有关注它,但我们预计无监督学习在长期内会变得更加重要。人类和动物的学习在很大程度上是无监督的:我们通过观察世界发现世界的结构,而不是通过被告知每个物体的名称。
人类的视觉是一个主动的过程,它以一种智能的、针对特定任务的方式对光学阵列进行采样,使用一个小的、高分辨率的眼窝和一个大的、低分辨率的周围。我们预计未来视觉领域的大部分进展将来自于端到端训练的系统,并将ConvNets与RNN结合起来,使用强化学习来决定看哪里。结合深度学习和强化学习的系统还处于起步阶段,但它们在分类任务中的表现已经超过了被动视觉系统,并在学习玩许多不同的视频游戏中产生了令人印象深刻的结果。
自然语言理解是深度学习准备在未来几年内产生巨大影响的另一个领域。我们预计,使用RNNs来理解句子或整个文件的系统,当它们学会有选择地一次关注一个部分的策略时,会变得更好。
最终,人工智能的重大进展将通过结合表征学习和复杂推理的系统来实现。虽然深度学习和简单的推理已经被用于语音和手写识别很长时间了,但是需要新的范式来取代基于规则的符号表达操作,对大矢量进行操作。