一.AlexNet:
虽然深度学习元年是2006年,但是真正使深度学习火起来的是2012年的ImageNet上的AlexNet,由于本人本科毕设有用到该网络模型,虽然后面更优秀的网络模型层出不穷本人再没有使用过该网络,但是该网络的设计对后序网络的设计还是又不可磨灭的影响。首先该网络出自论文:《ImageNet Classification with Deep ConvolutionalNeural Networks》。其中主要贡献有如下几点:
1.从实践中证明了深度神经网络的可行性,确立了多GPU+深度神经网络解决大规模非结构化数据(CV、NLP、语音)问题的工作范式,它得益于现代硬件尤其是GPU的成熟发展,却也反过来激励与AI相关硬件的更高速的发展。
2.激活函数单元创新:引入了ReLU非线性激活函数,对tanh和sigmoid会引起的梯度消失问题有一个很好的解决。
3.引入了Dropout,对过拟合问题有一个很好的解决。
4.引入了正则化层:局部响应正则化(LRN),不过后来被证明并不很work,被各大网络舍弃。btw,后面BN层横空出世。
下面从上述几点分别阐述:
1.网络结构如图所示:
更直观的观察:
为什么第一层有96个卷积核,论文原图上画了两个48,后面几层也是这样??因为当时是在两个gpu上跑的。
2.ReLU激活函数:
长这样:简单点就是max(0,x)
优点如下:
(1).不会像sigmoid一样梯度消失。
(2).计算很快。
(3).收敛迅速,比sigmoid/tanh快6倍。
(4).更合理的生物性解释。
简单点为什么sigmoid会梯度消失它不会?ReLU不会梯度消失直观看来梯度为常数,所以当然不会啦。那s