深度学习定义:
深度学习(deep learning,简称DL)
机器学习(machine learning,简称ML)的一个分支自动化算法,从大量数据中学习,针对某个特定问题的一般解决方案
以深度神经网络来构建模型
利用前向反向传播来训练模型
起源与发展
1960's:感知器(Perceptron)
Ivakhnenko,A.G.." Cybernetic Predicting Devices".
1980's:反向传播(Back Propagation)
Werbos,Paul(1982)."Applications of advances in nonlinear sensitivity analysis".
2006:深度置信网络(Deep belief Nets)
Hinton,G.E.;Osindero,S;Teh,Y.W.(2006)."A Fast Learning Algorithm for Deep Belief Nets
2010:使用GPU加速端到端BP神经网络
Oh,K.-S.;Jung,K.(2004)."GPU implementation of neural networks".
视觉领域
1960's,大卫·休伯尔(David H. Hubel)和托斯坦·威泽尔(Torsten Wiesel)
1980's,福岛邦彦提出新认知机引入了使用无监督学习训练的卷积神经网络
1989's,Yann LeCun等开始将1974年提出的标准反向传播算法应用于深度卷积神经网络,这一网络被用于手写邮政编码识别
2012,出现了深度学习的转折。AlexNet真正展现了深度学习强大的能力,其84.6%的top5准确率以碾压性的优势战胜了其他模型。
语音、文本领域
1982年出现的Hopfield网络,被认为是比较早期的RNN模型的典型。其对应的时序反向传播算法BPTT(back-propagation through time),由于涉及时间上的运算递归,也面临梯度消失和爆炸的问题。
1997年出现的LSTM(Long-Short time memory)通过组合四个门来处理长期记忆和短期记忆的重组,有效实现了时序序列数据的处理。通过叠加多层LSTM实现的深度网络,在文本和语音邻域获得了巨大的成功。
2015年,谷歌通过基于CTC训练的LSTM程序大幅提升了安卓手机和其他设备中语音识别的能力;
百度也使用了CTC;
苹果的iPhone在QuickType和Siri中使用了LSTM;
微软不仅将LSTM用于语音识别,还将这一技术用于虚拟对话形象生成和编写程序代码等等;
亚马逊Alexa通过双向LSTM在家中与你交流;
谷歌使用LSTM的范围更加广泛,生成图像字幕,自动回复电子邮件。
随着业界对深度学习的研究和使用,涌现出了大量深度学习的成功案例。而TensorFlow,pyTorch,MXNet,以及完全国产的PaddlePaddle这类基础计算框架的出现,极大的降低了深度学习的门槛。特别是近年,Nvidia发布的一系列GPU以及CUDA,CUDnn等深度学习基础加速框架,也不断在提高深度运算的效率,极大加速深度学习的发展。