一、AlexNet
2012年,AlexNet横空出世。它⾸次证明了学习到的特征可以超越⼿⼯设计的特征。它⼀举打破了计算机视觉研究的现状。AlexNet使⽤了8层卷积神经⽹络,并以很⼤的优势赢得了2012年ImageNet图像识别挑战赛。
AlexNet和LeNet的设计理念⾮常相似,但也存在显著差异。
1. AlexNet⽐相对较⼩的LeNet5要深得多。AlexNet由⼋层组成:五个卷积层、两个全连接隐藏层和⼀个
全连接输出层。
2. AlexNet使⽤ReLU⽽不是sigmoid作为其激活函数。
在AlexNet的第⼀层,卷积窗⼝的形状是11×11。由于ImageNet中⼤多数图像的宽和⾼⽐MNIST图像的多10倍以上,因此,需要⼀个更⼤的卷积窗⼝来捕获⽬标。第⼆层中的卷积窗⼝形状被缩减为5×5,然后是3×3。此外,在第⼀层、第⼆层和第五层卷积层之后,加⼊窗⼝形状为3×3、步幅为2的最⼤汇聚层。⽽且,AlexNet的卷积通道数⽬是LeNet的10倍。在最后⼀个卷积层后有两个全连接层,分别有4096个输出。这两个巨⼤的全连接层拥有将近1GB的模型参数。由于早期GPU显存有限,原版的AlexNet采⽤了双数据流设计,使得每个GPU只负责存储和计算模型的⼀半
参数。幸运的是,现在GPU显存相对充裕,所以现在很少需要跨GPU分解模型
此外,AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。⼀⽅⾯,ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。另⼀⽅⾯,当使⽤不同的参数初始化⽅法时,ReLU激活函数使训练模型更加容易。当sigmoid激活函数的输出⾮常接近于0或1时,这些区域的梯度⼏乎为0,因此反向传播⽆法继续更新⼀些模型参数。相反,ReLU激活函数在正区间的梯度总是1。因此,如果模型参数没有正确初始化,sigmoid函数可能在正区间内得到⼏乎为0的梯度,从⽽使模型⽆法得到有效的训练。
AlexNet的架构与LeNet相似,但使⽤了更多的卷积层和更多的参数来拟合⼤规模的ImageNet数据集。
• 今天,AlexNet已经被更有效的架构所超越,但它是从浅层⽹络到深层⽹络的关键⼀步。
• 尽管AlexNet的代码只⽐LeNet多出⼏⾏,但学术界花了很多年才接受深度学习这⼀概念,并应⽤其出
⾊的实验结果。这也是由于缺乏有效的计算⼯具。
• Dropout、ReLU和预处理是提升计算机视觉任务性能的其他关键步骤。
2、VGG16
3、常用数据集
4、深度学习视觉应用