1 前言
在之前的文章中我们多次谈到,如何有效的对输入数据进行特征提取,然后再将提取得到的特征输入到下游的任务模型中是深度学习中的一个重要研究方向。尤其是在图像处理这个领域中,自卷积操作问世以来,如何设计一个有效的卷积神经网络结构就成为了一个热门的研究点。研究者们通过设计不同架构的卷积网络来对输入的图像进行特征提取,都希望设计出的模型能够表现出强大的学习能力,以此来提高下游任务的精度。
在上一篇文章中, 笔者介绍了第一个经典的卷积神经网络LeNet5,在接下来的内容中笔者将开始介绍它的继任者AlexNet网络。公众号后台回复“论文”即可获取论文下载链接!
2 AlexNet网络
2012年,AlexNet网络横空出世,而这一名字也取自于第一作者的名字Alex Krizhevsky [3]。简单来说,AlexNet是在LeNet5的基础上进行了改进。不同于LeNet5的是AlexNet采用了5层卷积+3层全连接的网络结构,最后AlexNet以很大的优势赢得了ImageNet 2012图像识别挑战赛。下面我们就来具体的看看AlexNet的网络结构。
2.1 AlextNet结构
如图1所示为AlexNet原始的网络结构图,可以发现看起来并不是那么的直观明了。同时,受限于当时GPU缓存的大小,所以作者当时在训练这一网络时,将其分成了上下两个部分分别在不同的GPU上运算。但是,我们现在就大可不必这样做,直接合并在一起即可。因此,我们可以重新将其画成如下形式。
如图2所示就是重画后的结构图(原图.vsd
文件请加微信’nulls8’获取)。这里需要说明一点的是,图1中卷积后特征图的大小好像有点错误。例如第一次卷积后的大小应该是 54 × 54 54\times54 54×54,但原图中却写的 55 × 55 55\times55 55×55。这导致原图中后面所有特征图的大小都出现了错误,但是在图2中我们进行了修正。从图2可以看出,虽然AlexNet与LeNet的设计理念非常相似,但也有着显著的区别:
AlexNet第一层中的卷积窗口的大小是 11 × 11 11\times11 11×11。这是因为ImageNet中绝大多数图像的高和宽均比MNIST图像的高和宽大10倍以上,ImageNet图像的物体占用更多的像素,所以需要更大的卷积窗口来捕获物体。第二层中的卷积窗口形状减小到 5 × 5 5×5 5×5,之后全采用 3 × 3 3\times3 3×3的卷积窗口。此外,第一、第二和第五个卷积层之后都使用了窗口形状为 3 × 3 3\times3