深度学习简史

“上帝是一位算术家!”    ——雅克比

 

    深度学习(Deep Learning)是人工神经网络(artificial neural network)的一个分支。1943年,来自美国的数学家沃尔特·皮茨(W.Pitts)和美国心理学家沃伦·麦克洛克(W.McCulloch)首次提出人工神经网络的概念,并对其中的神经元进行了数学建模,从此人工神经网络这一研究领域被开启[1]。1949年,心理学家唐纳德·奥尔丁·赫布(D. Olding Hebb)提出了著名的Hebb学习规则[2]。八年后,人工智能专家弗兰克·罗森布莱特(F.Rosenblatt)提出了感知机(Perceptron)学习模型,并使用Hebb学习规则来训练感知器的参数,感知器被视为最早的拥有简单结构的人工神经网络模型。后来,弗兰克·罗森布莱特在计算机硬件上实现了首个感知机模型:Mark I[3],奠定了人工神经网络由计算机软件向硬件发展的趋势[4]。

    1980年,来自加拿大的人工智能专家杰弗里·辛顿(G. Hinton)采用多个隐含层的深度结构来代替感知机的单层结构:多层感知机模型(Multi_Layer Perceptron)[5]。1974年,反向传播算法(BP)被首次用来训练人工神经网络,随后,该算法进一步被燕·勒存(Y. LeCun)等人应用于训练深层神经网络[5]。BP算法计算每层的误差来调整网络权值[6]。但是,深度神经网络的参数是具有多隐含层的非凸空间,基于梯度下降的BP算法容易停留在网络参数的局部极小值[7]。

   为了解决BP算法在训练深层网络时存在的缺陷,研究人员开始改变感知机的结构来提高网络的泛化性能,因而产生了很多浅/单层学习模型,例如SVM[8]、Logistic Regression[9]、Maximum Entropy Model[10]和Naive Bayesian Model[11]等。因为受限于只含一个隐含层,所以其特征构造的能力有限,只能够解决简单的条件限制问题,不能有效地处理具有复杂特征的学习问题[12]。

神经网络的前向和反向传播过程

 

    1984年,日本学者福岛邦彦提出了神经感知机(Neocognitron)[13],这是卷积神经网络的原始模型。1998年,燕·勒存(Y.LeCun)提出了具有深层结构的卷积神经网络(Convoluted Neural Network, CNN)[14]。2006年,杰弗里·辛顿(G. Hinton)提出了深度信念网络[15],从此,在计算机研究领域开启了深度学习的热潮。2009年,Yoshua Bengio提出了堆叠自动编码器[16](Stacked Auto-Encoder,SAE),采用自动编码器来代替深度信念网络的基本单元:限制玻尔兹曼机[17]。

    约翰·霍普菲尔德(John Hopfield)在1982提出了Hopfield网络[18]。随后出现了Elman和Jordan等人提出的循环神经网络(RNN)[19],因为没有合适的应用,并没有得到广泛的应用。人工智能专家Jurgen Schmidhuber提出了LSTM[20],该网络改进了RNN的多种限制,增加了门限结构,使得循环神经网络的记忆时长得到进一步增加,LSTM在自然语言处理领域取得了突飞猛进的进展。

    从2011年开始,谷歌和微软研究院先后将深度学习应用到语音识别领域,使语音识别的错误率下降了20%-30%[21]。2012年,在ImageNet图像分类比赛中,利用深层卷积神经网络,使得大规模图像识别的错误率下降了14%[22]。

    深度神经网络在计算机视觉(computer vision)、强化学习(Reinforcement Learning)、自然语言处理(natural language processing)等各种任务中表现优异,在计算机视觉领域,卷积神经网络在识别、检测、语义分割等视觉任务中起到了极大的推动作用。卷积神经网络(CNN)在大规模图像识别任务(ILSVRC )中首次超过人类[22],也在检测和语义分割任务中表现突出。

    在机器学习与认知识别领域中,人工神经网络(ANN)是一类模拟生物神经网络(中枢神经网络,主要是大脑)的模型,用来预测(决策问题)或估计基于大量未知数据的函数模型。 深度学习的基础架构来自于前馈神经网络与BP[23]算法,构造多层节点并通过最小化代价函数的方法来提高分类精度。对于传统的ANN而言,由于多个隐含层的网络参数训练困难[24][25],不同于浅层的神经网络算法,深度学习更侧重于如何通过增加网络的深度,减小每层拟合的参数来提取数据(尤其是语音与图像数据)的高层特征信息,从而达到更高的测试性能与分类精度。由于含有很多隐层的人工神经网络具有优异的特征学习能力,深度学习算法逐渐成为分类算法的一个较大的分支。然而训练深度神经网络的难度非常大,为此,可以对其进行“逐层初始化”(layer-wisepre-train)[26]。

    由于CNN能够提取存在局部相关性的结构信息,因此也被广泛应用在强化学习和自然语言处理任务中。在强化学习任务中,使用CNN结合强化学习算法设计的深度Q学习网络[27](DQL)首次在Atari等一系列游戏上战胜人类玩家,AlphaGo[28]在围棋领域战胜了人类围棋冠军。这些强化学习方法都使用了CNN,说明CNN很容易提取这些有着高度局部规则的结构。在自然语言处理任务[29]中,由于自然语言在词与词、句子与句子之间也存在着局部的结构,使用CNN进行文本分类和特征提取也取得了很好的效果。

    卷积神经网络在机器学习学科中占有着如此重要的地位,网络架构的设计对其性能影响重大。由于神经网络本身存在大量的参数以及一些需要人为设定的超参数,而现在的研究仅从信号处理及实验验证的角度来设计神经网络,并没有从优化的理论方面来分析如何设计神经网络才能取得较高的性能。这就使得神经网络有着大量的参数需要调节,参数调节及架构设计成了提高神经网络泛化性能的重点。探索如何高效地搜索参数空间及设计网络架构对提高神经网络的泛化性能有着重大意义。

   卷积网络被应用在各个领域,尤其在强化学习领域中,将卷积神经网络和强化学习策略结合,可以实现深度强化学习[28]。实验证明,卷积神经网络能够容易地学习强化学习任务中的规则,无论是在特征提取阶段还是在策略控制阶段。研究卷积神经网络在强化学习中的应用,将进一步促进人工智能向通用智能迈进。

现状

    深度学习(Deep Learning)[14]在1986年被引入机器学习(Mechine Learning)领域,在2000年被用于人工神经网络[23]。深度学习无论在学术界还是工业界均得到了广泛的研究和应用。因其强大的拟合能力,深度学习在很多领域都取得了突破性的进展。如经过特殊设计的深层神经网络能够拟合任意的非凸函数,甚至可以拟合某些函数分布,这使得深度学习成为机器学习和人工智能研究的新趋势,也是人工智能领域中不可或缺的强大学习方法。深度学习也被某些领域用作表征学习,即将深度学习所学习的函数用于特征表示,这一方法也被称为“特征工程”。学术界一般认为深度学习方法是在2006年开始才逐渐发展起来。深度学习的研究方向主要包括:非凸函数的优化,网络架构的设计,计算机视觉[14],自然语言处理[29],强化学习[28],生成对抗网络[30],自动变分编码[31]等,其中在某些领域中的应用还可以被继续细化。

演变

    人工神经网络 (ANN) 已经取得了长足的进步,同时也带来了其他的深度模型。第一代人工神经网络由简单的感知器神经层组成,只能进行有限的简单计算。第二代使用反向传播,根据错误率更新神经元的权重。然后支持向量机 [8](SVM) 浮出水面,在一段时间内超越 ANN。为了克服反向传播的局限性,人们提出了受限玻尔兹曼机[32](RBM),使学习更容易。此时其他技术和神经网络也出现了,如前馈神经网络 (FNN)、卷积神经网络 (CNN)[14]、循环神经网络[20] (RNN) 等,以及深层信念网络、自编码器[32]等。从那时起,为实现各种用途,ANN 在不同方面得到了改进和设计。

    Schmidhuber (2014)、Bengio (2009)、Deng 和 Yu (2014)、Goodfellow 等人 (2016)、Wang 等人(2017) 对深度神经网络 (DNN) 的进化和历史以及深度学习 (DL) 进行了详细的概述。在大多数情况下,深层架构是简单架构的多层非线性重复,这样可从输入中获得高度复杂的函数。

方法

    深度人工神经网络在监督学习的任务中取得了巨大的成功。此外,深度学习模型在半监督、无监督和强化学习方面也非常成功。

    1) 深度监督学习。监督学习应用在当数据标记、分类器分类或数值预测的情况。LeCun 等人 (2015) 对监督学习方法以及深层结构的形成给出了一个精简的解释。Deng 和 Yu(2014) 提到了许多用于监督和混合学习的深度网络,并做出了相应的解释,例如深度堆栈网络[33](DSN) 及其变体。Schmidthuber(2014) 的研究涵盖了所有神经网络,从早期神经网络到最近成功的卷积神经网络[14] (CNN)、循环神经网络 (RNN)[20]、长短时记忆网络(LSTM)[20] 及其改进。

    2) 深度无监督学习。当输入数据没有标记时,可应用无监督学习方法从数据中提取特征并对其进行分类或标记。LeCun 等人(2015)预测了无监督学习在深度学习中的未来[23]。Schmidthuber(2014) 也描述了无监督学习的神经网络。Deng 和 Yu(2014)简要介绍了无监督学习的深度架构[33],并详细解释了深度自编码器。

    3) 深度强化学习。强化学习使用奖惩系统预测学习模型的下一步。这主要用于游戏和机器人,解决平常的决策问题。Schmidthuber(2014)描述了强化学习 (RL) 中深度学习的进展,以及深度前馈神经网络 (FNN) 和循环神经网络[20] (RNN) 在 RL 中的应用。Li(2017) 讨论了深度强化学习 (Deep Reinforcement Learning,DRL)和它的架构 (例如 Deep Q-Network, DQN)[31]以及在各个领域的应用。Mnih等人(2016)提出了一种利用异步梯度下降进行 DNN 优化的 DRL 框架[34]。Van Hasselt 等人(2015)提出了一种使用深度神经网络 (deepneural network, DNN) 的 DRL 架构[35]。

架构 

    自编码器[31](AE) 是一种神经网络(NN),其中输出即输入。AE采用原始输入,编码为压缩表示,然后解码以重建输入。在深度AE中,低隐藏层用于编码,高隐藏层用于解码,误差反向传播用于训练。

    1)变分自编码器[31]。变分自动编码器 (VAE) 可以算作解码器。VAE 建立在标准神经网络上,可以通过随机梯度下降训练 (Doersch,2016)。

    2)多层降噪自编码器[36]。在早期的自编码器 (AE) 中,编码层的维度比输入层小(窄)。在多层降噪自编码器 (SDAE) 中,编码层比输入层宽 (Deng and Yu, 2014)。

    3)变换自编码器[31]。深度自动编码器 (DAE) 可以是转换可变的,也就是从多层非线性处理中提取的特征可以根据学习者的需要而改变。变换自编码器(TAE) 既可以使用输入向量,也可以使用目标输出向量来应用转换不变性属性。

CNN 

    卷积神经网络 (CNN)的构成主要有四种结构,即:局部连接、共享权重、池化和多层的使用。CNN 的第一部分由卷积层和池化层组成,后一部分主要是全连接层。卷积层检测特征的局部连接,池层将相似的特征合并为一个。CNN 在卷积层中使用卷积而不是矩阵乘法。

    Krizhevsky 等人 (2012) 提出了一种深度卷积神经网络 (CNN) 架构[22],也称为 AlexNet,这是深度学习 (Deep Learning, DL) 的一个重大突破。网络由 5 个卷积层和 3 个全连接层组成。该架构采用图形处理单元 (GPU) 进行卷积运算,采用线性整流函数 (ReLU) 作为激活函数,用Dropout来减少过拟合。

    1) 深度最大池化卷积神经网络。最大池化卷积神经网络(MPCNN)主要对卷积和最大池化进行操作,特别是在数字图像处理中。MPCNN通常由输入层以外的三种层组成。卷积层获取输入图像并生成特征图,然后应用非线性激活函数。最大池化层向下采样图像,并保持子区域的最大值。全连接层进行线性乘法。在深度MPCNN中,在输入层之后周期性地使用卷积和混合池化,然后是全连接层。

    2) 极深的卷积神经网络。Simonyan和Zisserman(2014) 提出了非常深层的卷积神经网络架构,也称为VGGNet[37]。VGGNet 使用非常小的卷积滤波器,深度达到16-19层。

    3)He 等人提出的残差网络[38](ResNet) ,层数可多达1000多层。ResNet 具有较低的误差,并且容易通过残差学习进行训练。更深层次的 ResNet 可以获得更好的性能。在深度学习领域,人们认为ResNet是一个重要的进步。Xie等人提出了 ResNeXt架构[39],ResNext利用ResNet来重复使用分割-转换-合并策略。

RNN

    循环神经网络[20](RNN) 更适合于序列输入,如语音、文本和生成序列。一个重复的隐藏单元在时间展开时可以被认为是具有相同权重的非常深的前馈网络。由于梯度消失和维度爆炸问题,RNN 曾经很难训练。为了解决这个问题,后来许多人提出了改进意见。

    Goodfellow等人(2016)详细分析了循环和递归神经网络和架构的细节,以及相关的门控和记忆网络。Karpathy等人(2015)使用字符级语言模型来分析和可视化预测、表征训练动态、RNN 及其变体(如LSTM)的错误类型等。

    循环神经网络使用与深度神经网络类似的多个抽象层和表示层。Bengio解释了深层架构,例如Boltzmann machine (BM) 和 Restricted Boltzmann Machines (RBM) [32]及其变体。Goodfellow 等人详细解释了深度生成模型,如受限和非受限的玻尔兹曼机及其变种、深度玻尔兹曼机、深度信念网络 (DBN)、定向生成网络和生成随机网络等。Maale等人提出了辅助的深层生成模型[40](Auxiliary Deep GenerativeModels),在这些模型中,他们扩展了具有辅助变量的深层生成模型。辅助变量利用随机层和跳过连接生成变分分布。

 

 

  欢迎大家关注“灵感快现”,若有不足之处,欢迎批评指正!

 


[1] 周开利, 康耀红. 神经网络模型及其Matlab仿真[M]. 程序设计. 北京: 清华大学出版社, 2005:43.

[2] 孙志军, 薛雷, 许阳明, 王正. 深度学习研究综述[J]. 计算机应用研究, 2012, 29(8):2806-2810.

[3] The organization of behavior: A neuropsychological theory. D. O. Hebb. John Wiley And Sons, Inc.,New York, 1949.

[4] F. Rosenblatt. The perceptron, a perceiving and recognizing automaton Project Para. CornellAeronautical Laboratory, 1957.

[5] G. Dahl, D. Yu, L. Deng. Context-dependent pre-trained deep neural networks for large-vocabularyspeech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 20(1):30-42,2012.

[6] G. E. Hinton, S. Osindero, Y. W Teh. A Fast Learning Algorithm for Deep Belief Nets[J]. NeuralComputation, 18(7): 1527-1554, 2006.

[7] M. Ranzato, Y. Boureau, S. Chopra, and Y. LeCun. A unified energy-based framework forunsupervised learning[J]. Proc. Conference on AI and Statistics (AI-Stats), 2007.

[8] Suykens J A K , Vandewalle J . Least Squares Support Vector Machine Classifiers[J]. NeuralProcessing Letters, 9(3):293-300, 1999.

[9] Allison P D. Logistic Regression Using the SAS System: Theory and Application[M]. 1999.

[10] Ratnaparkhi A, Reynar J, Roukos S. A maximum entropy model for prepositional phraseattachment[C]// Workshop: Human Language Technology. 1994.

[11] Henge Z. Naive bayesian classifier committees[J]. Lecture Notes in Computer Science, 1398:196--207, 1998.

[12] Minsky, M. (1952). A neural-analogue calculator based upon a probability model ofreinforcement. Harvard University Pychological Laboratories internal report.

[13] Fukushima K. Neocognitron: A hierarchical neural network capable of visual patternrecognition[J]. Neural Networks, 1(2):119-130, 1988.

[14] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to documentrecognition. Proceedings of the IEEE, november 1998.

[15] Hinton, G. E., Osindero, S. & Teh, Y.-W. A fast learning algorithm for deep belief nets. NeuralComp. 18, 1527–1554 , 2006.

[16] Vincent P, Larochelle H, Lajoie I, et al. Stacked Denoising Autoencoders: Learning UsefulRepresentations in a Deep Network with a Local Denoising Criterion[J]. Journal of Machine LearningResearch, 11(12):3371-3408, 2010.

[17] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advancesin neural information processing systems, 19: 153, 2007.

[18] Hopfield J J. Neural networks and physical systems with emergent collective computationalabilities.[J]. Proceedings of the National Academy of Sciences of the United States of America,79(8):2554-2558, 1982.

[19] J. L. Elman. Finding structure in time. Cognitive Science, 14:179–211, 1990.

[20] Hochreiter S . The Vanishing Gradient Problem During Learning Recurrent Neural Nets andProblem Solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based, Systems,6(2):107-116, 1998.

[21] Cooke M, Green P, Josifovski L, et al. Robust automatic speech recognition with missing andunreliable acoustic data[J]. Speech Communication, 34(3):267-285, 2001.

[22] A. Krizhevsky, I. Sutskever, and G. E. Hinton, Imagenet classification with deep convolutionalneural networks, in International Conference on Neural Information Processing Systems, pp. 1097–1105, 2012.

[23] Y. Lecun, B. E. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel,Backpropagation applied to handwritten zip code recognition, Neural Computation, vol. 1, no. 4, pp.541–551, 1989.

[24] Y. Bengio, P. Y. Simard, and P. Frasconi, Learning long-term dependencies with gradient descentis difficult, IEEE Transactions on Neural Networks, vol. 5, no. 2, pp. 157–166, 1994.

[25] X. Glorot and Y. Bengio, Understanding the difficulty of training deep feedforward neuralnetworks, Journal of Machine Learning Research, vol. 9, pp. 249–256, 2010.

[26] Erhan D , Bengio Y , Courville A C , et al. Why Does Unsupervised Pre-training Help DeepLearning?[J]. Journal of Machine Learning Research, 11(3):625-660, 2010.

[27] Mnih V , Kavukcuoglu K , Silver D , et al. Playing Atari with Deep Reinforcement Learning[J].Computer Science, 2013.

[28] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. V. D. Driessche, J. Schrittwieser, I.Antonoglou, V. Panneershelvam, and M. Lanctot, Mastering the game of go with deep neuralnetworks and tree search, Nature, vol. 529, no. 7587, p. 484, 2016.

[29] G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen,and T. N. Sainath, Deep neural networks for acoustic modeling in speech recognition: The sharedviews of four research groups, IEEE Signal Processing Magazine, vol. 29, no. 6, pp.82–97, 2012.

[30] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y.Bengio, Generative adversarial nets, in Advances in Neural Information Processing Systems 27, Z.Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, Eds. Curran Associates, Inc.,pp. 2672–2680, 2014.

[31] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoisingautoencoders[C]// International Conference on Machine Learning. 2008.

[32] Schölkopf B, Platt J, Hofmann T. Greedy Layer-Wise Training of Deep Networks[J]. Advances inNeural Information Processing Systems, 19:153-160, 2007.

[33] Li J, Chang H, Jian Y. Sparse Deep Stacking Network for Image Classification[J]. 2015.

[34] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning.[J]. Nature, 518(7540):529, 2015.

[35] Silver D, Van Hasselt H, Hessel M, et al. The Predictron: End-To-End Learning and Planning[J].2016.

[36] Deng, Zhang, Eyben, et al. Autoencoder-based Unsupervised Domain Adaptation for SpeechEmotion Recognition[J]. IEEE Signal Processing Letters, 21(9):1068-1072, 2014.

[37] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, andM. Bernstein, Imagenet large scale visual recognition challenge, International Journal of ComputerVision, vol. 115, no. 3, pp. 211–252, 2014.

[38] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition, in The IEEEConference on Computer Vision and Pattern Recognition (CVPR), pp. 770–778, 2015.

[39] S. Xie, R. Girshick, P. Dollà˛ar, Z. Tu, and K. He, Aggregated residual transformations for deepneural networks, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.5987–5995, July 2017.

[40] Maaløe L, Sønderby C K, Sønderby S K, et al. Auxiliary Deep Generative Models.[J]. 2017.

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值