AlexNet: Imagenet classification with deep convolutional neural networks

本文详细介绍了AlexNet网络的结构和实现,它是2012年ImageNet挑战赛的冠军,对比LeNet5,AlexNet在性能上有显著提升。通过Pytorch实现了一个简化版的AlexNet,展示了其在Fashion-MNIST数据集上的应用。
摘要由CSDN通过智能技术生成

1 前言

在之前的文章中我们多次谈到,如何有效的对输入数据进行特征提取,然后再将提取得到的特征输入到下游的任务模型中是深度学习中的一个重要研究方向。尤其是在图像处理这个领域中,自卷积操作问世以来,如何设计一个有效的卷积神经网络结构就成为了一个热门的研究点。研究者们通过设计不同架构的卷积网络来对输入的图像进行特征提取,都希望设计出的模型能够表现出强大的学习能力,以此来提高下游任务的精度。

上一篇文章中, 笔者介绍了第一个经典的卷积神经网络LeNet5,在接下来的内容中笔者将开始介绍它的继任者AlexNet网络。公众号后台回复“论文”即可获取论文下载链接!

2 AlexNet网络

2012年,AlexNet网络横空出世,而这一名字也取自于第一作者的名字Alex Krizhevsky [3]。简单来说,AlexNet是在LeNet5的基础上进行了改进。不同于LeNet5的是AlexNet采用了5层卷积+3层全连接的网络结构,最后AlexNet以很大的优势赢得了ImageNet 2012图像识别挑战赛。下面我们就来具体的看看AlexNet的网络结构。

2.1 AlextNet结构

图 1. 原始AlexNet网络结构图

如图1所示为AlexNet原始的网络结构图,可以发现看起来并不是那么的直观明了。同时,受限于当时GPU缓存的大小,所以作者当时在训练这一网络时,将其分成了上下两个部分分别在不同的GPU上运算。但是,我们现在就大可不必这样做,直接合并在一起即可。因此,我们可以重新将其画成如下形式。

图 2. AlexNet网络结构图

如图2所示就是重画后的结构图(原图.vsd文件请加微信’nulls8’获取)。这里需要说明一点的是,图1中卷积后特征图的大小好像有点错误。例如第一次卷积后的大小应该是 54 × 54 54\times54 54×54,但原图中却写的 55 × 55 55\times55 55×55。这导致原图中后面所有特征图的大小都出现了错误,但是在图2中我们进行了修正。从图2可以看出,虽然AlexNet与LeNet的设计理念非常相似,但也有着显著的区别:

AlexNet第一层中的卷积窗口的大小是 11 × 11 11\times11 11×11。这是因为ImageNet中绝大多数图像的高和宽均比MNIST图像的高和宽大10倍以上,ImageNet图像的物体占用更多的像素,所以需要更大的卷积窗口来捕获物体。第二层中的卷积窗口形状减小到 5 × 5 5×5 5×5,之后全采用 3 × 3 3\times3 3×3的卷积窗口。此外,第一、第二和第五个卷积层之后都使用了窗口形状为 3 × 3 3\times3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值