2012年AlexNet横空出世,该模型使用了8层卷积神经网络,并以很大优势赢得了ImageNet2012图形识别挑战赛。首次证明了学习到的特征可以超越手工设计的特征。
-
与相对较小的LeNet相比,AlexNet包含8层交换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层。
-
第一层中的卷积窗口形状是11x11。因为ImageNet中绝大多数图像的高和宽均比MNIST图像的高和宽大10倍以上。
-
第二层中的卷积窗口形状减小到5x5,之后全采用3x3。另,第一、第二和第五个卷积层后都使用了窗口形状为3x3,步幅为2的最大池化层。而且AlexNet使用的卷积通道数也数十倍于LexNet中的卷积通道数。
-
紧接着最后一个卷积层的是两个输出个数为4096的全连接层。这两个巨大的全连接层带来将近1GB的模型参数
-
AlexNet将sigmoid激活函数改为更加简单的ReLU激活函数。一方面,ReLU激活函数的计算更加简单,例如它没有sigmoid函数的求幂运算。另一方面,ReLU激活函数在不同的参数初始化方法下使模型更容易训练
当sigmoid激活函数输出极接近0或1时,这些区域的梯度几乎为0,从而造成反向传播无法继续更新部分模型参数,而ReLU激活函数在正区间的梯度恒为1。因此,若模型参数初始化不当,sigmoid函数可能在正区间得到几乎为0的梯度,从而令模型无法得到有效训练 -
AlexNet通过丢弃法来控制全连接层的模型复杂度
-
AlexNet引入大量的图像增广,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合
net