【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks

最新推荐文章于 2024-05-26 21:49:12 发布

皓月静影

最新推荐文章于 2024-05-26 21:49:12 发布

阅读量3.7k

点赞数

分类专栏：文献笔记文章标签：深度学习 cnn 计算机视觉

本文链接：https://blog.csdn.net/weixin_41734446/article/details/123526364

版权

文献笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文献名：ImageNet Classification with Deep Convolutional Neural Networks

文献出处 https://doi.org/10.1145/3065386 作者单位 University of Toronto
作者 Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton
索引情况 9707（截止22.02.27）

研究动机

作者训练了一个深度卷积网络（AlexNet）,完成LVSRC-2010竞赛的1000个图片类别的分类。

本文关键内容介绍

1、数据预处理：将图像中每个像素值减去整个训练集所有图像同一位置处的像素均值。
2、网络架构：

AlexNet网络架构

3、作者在四层的CNN分别用tanh和ReLU训练，发现在train error rate曲线图上，到达相同的train error rate，tanh比ReLU慢6倍。
4、用2个GPU训练，作者说训练时间相比用一个GPU少一点，那用2个的目的就是为了cover所有的训练数据？
5、为了更好地泛化，作者使用了Local Response Normalization，这个操作模型在Cifar10（四层CNN）和 ImageNet数据集（AlexNet）上准确率有提高。这是一种根据附近n/2个通道在同一个位置的像素来做局部像素值规范化的方法，计算第j个通道在 x,y 位置上局部响应规范化后的值bix,y的计算公式如下：ajx,y 是第j个通道上 x,y 位置上的ReLU激活值。n,k,α,β 都是超参数，根据一组validation set得到n=5,k=2,α=10−4,β=0.75，N 是这个feature map总的通道个数。
6、使用重叠池化。
7、为了减少过拟合，采用2种方法：
第一种是采取图像四个角和中心的5个子图，然后左右翻转变为10个图像分别就softmax，取均值。
第二种方式是改变图像上RGB通道的像素强度值（加噪声，带来的优势是top1错误率降低1%），大概流程是：计算原始图像的协方差矩阵，根据协方差矩阵计算特征值和特征向量，在特征值前加入噪声系数（服从均值为0，标准差为0.1的高斯分布，然后复原回原始图像，得到加了噪声的图像）。
8、使用dropout。

实验和结果分析

1、AlexNet架构计算过程：

AlexNet架构计算过程

2、权重初始化：每层权重根据均值为0标准差为0.01的高斯分布初始化，第二、第四、第五层卷积和全连接层的bias初始化为常数1，剩下所有层的bias初始化为0。这种初始化有助于早期阶段正样本的学习的加速。
3、优化算法：

在这里插入图片描述

4、特征抓取：两个GPU训练得到的卷积核侧重点不同，上面偏重对网络线条、方向的学习，下面偏重对颜色和方向的学习。

在这里插入图片描述

总结和疑问

总结：AlexNet网络有6千万参数、65万神经元，结构为五层卷积，某些卷积层后接max-pooling层，后接三个全连接层，完成了2010年的ImageNet分类比赛的任务（LVSRC-2010），将120万张高分辨率的图片分为1000个类别。
疑问：用2个GPU训练，作者说训练时间相比用一个GPU少一点，那用2个的目的就是为了cover所有的训练数据？
Dropout部分，不同架构怎么共享权重？这个技术减少了神经元间的复杂协同适应性，这个说法感觉论证不够。

值得关注的参考文献列表
[1] https://blog.csdn.net/zziahgf/article/details/79619059
[2] https://blog.csdn.net/sun_28/article/details/52134584
[3] https://baike.baidu.com/item/AlexNet/22689612

补充知识：

1、卷积中的特征图大小计算方式有两种，分别是‘VALID’和‘SAME’，卷积和池化都适用，卷积除不尽的结果都向下（小）取整，池化除不尽的结果都向上（大）取整。如果计算方式采用’VALID’，则：
在这里插入图片描述

其中为输出特征图的大小，为输入特征图的大小，F为卷积核大小，stride为卷积步长。当采用’SAME’时，输出特征图的大小与输入特征图的大小保持不变，kernel_size=1时，padding=0；kernel_size=3时，padding=1；kernel_size=5时，padding=3，以此类推。
2、
在这里插入图片描述

皓月静影

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks

【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks
复制链接

扫一扫