ImageNet classification with deep convolutional neural networks

最新推荐文章于 2024-05-26 21:49:12 发布

每天都要吃肉肉(●'◡'●)

最新推荐文章于 2024-05-26 21:49:12 发布

阅读量1.3k

点赞数

分类专栏：论文阅读文章标签：深度学习

本文链接：https://blog.csdn.net/qq_41427793/article/details/128116157

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

使用深度卷积神经网络进行ImageNet图像分类

3.3局部响应归一化（增强泛化能力，已不再使用）

3.4重叠池化（轻微防止过拟合/提高准确率，不再使用）

3.5 数据增强（防止过拟合）

3.6 dropout

4.参考

1.引言

2012年被认为是深度学习复兴之始，当时来自多伦多大学的Hinton（深度学习三巨头之一）和他的学生Alex Krizhevsky提出了一个名叫“AlexNet”的神经网络结构，该结构在当年的ImageNet LSVRC-2012竞赛一举夺冠，并以此开启了深度学习的热潮。

2.网络结构

网络包含8个层：前5层为卷积层，后3层为全连接层，最后一个全连接层的输出被送到一个1000路的softmax分类器。

2.1 小细节

原论文中,AlexNet的输入图像尺寸是224x224x3，但是实际图像尺寸为227x227x3。
因为计算量太大，使用了两台GPU进行训练，并只在确定的层之间交互（注意看卷积核映射虚线：第2、第4和第5个卷积层的内核，仅连接到位于同一GPU上的前一层中的内核映射，第三个卷积层的内核连接到第二层的所有内核映射。）

（最好跟着流程算一遍）

2.2 代码部分

#01:定义网络结构:在__init__构造函数中申明各个层的定义，在forward中实现层之间的连接关系
class AlexNet(nn.Module):
    def __init__(self,num_classes):
        super().__init__()
        self.conv1=nn.Sequential(
            nn.Conv2d(in_channels=3, out_channels=96, kernel_size=11, stride=4, padding=0),
            nn.BatchNorm2d(96), #BN加在激活函数前面或后面
            nn.ReLU(inplace=True), #inplace=True将上层网络传递下来的tensor直接进行修改，来节省运算内寸
            nn.MaxPool2d(kernel_size=3, stride=2)
        )
        self.conv2=nn.Sequential(
            nn.Conv2d(in_channels=96, out_channels=256, kernel_size=5, stride=1,padding=2), nn.BatchNorm2d(256),
            nn.BatchNorm2d(256)
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3,2)
        )
        self.conv3=nn.Sequential(
            nn.Conv2d(in_channels=256,out_channels=384,kernel_size=3,stride=1,padding=1),
            nn.BatchNorm2d(384),
            nn.ReLU(inplace=True)
        )
        self.conv4=nn.Sequential(
            nn.Conv2d(in_channels=384,out_channels=384,kernel_size=3,stride=1,padding=1),
            nn.BatchNorm2d(384),
            nn.ReLU(inplace=True)
        )
        self.conv5=nn.Sequential(
            nn.Conv2d(in_channels=384,out_channels=256,kernel_size=3,padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3,2)
        )
        self.fc=nn.Sequential(
            nn.Linear(in_features=9216,out_features=4096),
            nn.ReLU(inplace=True),
            nn.Dropout(0.5),
            nn.Linear(in_features=4096, out_features=4096),
            nn.ReLU(inplace=True),
            nn.Dropout(0.5),
            nn.Linear(in_features=4096, out_features=num_classes),
        )
    def forward(self,x):
        x=self.conv1(x)
        x=self.conv2(x)
        x=self.conv3(x)
        x=self.conv4(x)
        x=self.conv5(x)
        x=x.view(x.size(0),-1) #x=torch.flatten(x,start_dim=1)
        x=self.fc(x)
        return x

3. 创新点

3.1 非线性激活函数ReLU（提速）

ReLU的收敛速度要快于sigmoid与tanh，因为后两者存在饱和区，在饱和区的梯度变化缓慢甚至出现梯度消失

3.2 多GPU训练（提速）

单个GPU的内存限制了网络的训练规模，采用多GPU协同训练，可以大大提高AlexNet的训练速度。

3.3局部响应归一化（增强泛化能力，已不再使用）

$a_{x,y}^{i}$ 表示第 $i$ 片特征图在位置 $(x,y)$ 运用激活函数 ReLU 后的输出。n 是同一位置上临近的 feature map 的数目，N 是特征图的总数。
参数 k,n,α，β 都是超参数。k=2，n=5，α=10-4，β=0.75。
k是为了防止分母为0

举一个例子：

i = 10, N = 96 时，第 i=10 个卷积核在位置（x,y）处的取值为 $a_{x,y}^{i}$ ，它的局部响应归一化过程如下：用 $a_{x,y}^{i}$ 除以第 8、9、10、11、12 片特征图位置（x,y）处的取值平方求和。

也就是跨通道的一个 Normalization 操作

局部响应归一化（local response normalization，LRN）的思想来源于生物学中的“侧抑制”，是某个神经元受到刺激而产生兴奋时，再刺激相近的神经元，则后者所发生的兴奋对前者产生的抑制作用。也就是说，侧抑制是指相邻的感受器之间能够互相抑制的现象。采用LRN的目的是为了将数据分布调整到合理的范围内，便于计算处理，从而提高泛化能力。