背景
纵观深度学习的历史发展进程,有助于对其全方位的理解。本博客将从时间的角度,分享深度学习知识。
仔细查看现有的很多博客,发现大家都写的非常详细,所以本博客暂时决定不对外开放,仅用于笔记。
概述
总的来说,深度学习经历了两次低谷,三次增长。
历史成就
第一次起落
- 1943年的MCP人工神经元模型。
- 1958年Rosenblatt发明的感知器(perceptron)算法
- 1962年,该方法被证明为能够收敛,理论与实践效果引起第一次神经网络的浪潮
- 1969年,Minsky,证明单层感知器只能处理线性分类问题
自评:可以理解为单层感知器(线性平面,可进行二分类),而且可以用梯度下降去进行参数训练,最终感知器模型收敛,获得最优参数。但是局限在线性特性,解决不了异或问题
以上异或数据不能通过线性进行分类,同样不能被感知器进行分类。
第二次起落
- 1986年发明了多层感知器BP算法,并采用Sigmoid进行非线性映射,实现了非线性分类(激活函数解决了第一代神经网络的核心问题)
- 1989年,Robert Hecht-Nielsen证明了MLP的万能逼近定理。即在误差梯度后向传递的过程中,后层梯度以乘性方式叠加到前层,由于Sigmoid函数的饱和特性,后层梯度本来就小,误差梯度传到前层时几乎为0,因此无法对前层进行有效的学习(这里阐述出来的问题,应该就是梯度弥散的意思,另外还有中说法叫做梯度爆炸。这两个名词只有在进一步了解sigmoid函数才能进一步说明)
- 1997年,LSTM模型被发明(长短记忆模型)
自评:多层感知 + sigmoid激活函数解决不能进行分线性分类的问题。不过又引入了新的问题,是sigmoid函数本身的(即梯度消失和梯度爆炸)
第三次大起
- 2006年,Hinton提出了梯度消失解决方案:无监督预训练对权值进行初始化+有监督训练微调
- 2011年,ReLU激活函数被提出,该激活函数能够有效的抑制梯度消失问题(relu激活函数能解决梯度消失,在很多神经网络中使用)
- 2011年,微软首次将DL应用在语音识别上,取得了重大突破
- 2013,2014,2015年,通过ImageNet图像识别比赛,DL的网络结构,训练方法,GPU硬件的不断进步(这里是里程碑)
- 2015年,Hinton,LeCun,Bengio论证了局部极值问题对于DL的影响,结果是Loss的局部极值问题对于深层网络来说影响可以忽略(排除了深度神经网络局部最优解的疑惑)
- 2015-2019,不同种类的神经网络快速发展阶段