CNN网络:AlexNet(二)

AlexNet是2012年Hinton和Krizhevsky设计的深度学习模型,它在图像分类上的高准确性开创了CNN的新纪元。该模型包括5个卷积层和3个全连接层,使用了两个GPU并行处理,且引入了ReLU激活函数和Dropout正则化。其输入图像需预处理至227*227尺寸,并在PyTorch中有明确的实现。
摘要由CSDN通过智能技术生成

AlexNet论文[imagenet.pdf (toronto.edu)]。AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。在图像分类上准确率远超在其之前的神经卷积网络。

AlexNet的输入要求是固定的分辨率224*224*3,为此在训练前,首先重新缩放图像,使得较短边的长度为224,然后从结果图像的中心裁剪出224*224大小的图片。原始图像经预处理就变为224*224*3。

AlexNet的网络结构如图:

AlexNet由输入层,5个卷积层,3个全连接层组成。网络是分布在2个GPU上的,部分层只跟同一个GPU中的上一层连接。

卷积后的长 = [(输入图像的长-卷积核的尺寸-2*填充圈数)/ 滑动步长 ] + 1

池化后的长 = [(输入图像的长-池化尺寸)/ 滑动步长 ] + 1

第一层卷积池化:论文中的输入图像是224*224尺寸的,但根据卷积核计算输出的尺寸并不是55*55,但如果输入是227*227尺寸的,经过计算得到的是55*55,所以正确的输入尺寸是227*227。使用96个尺寸为11*11*3的卷积核进行卷积计算,分成两份输入到两个GPU中,stride步长为4,输出size为55*55*48。然后将55×55×48的特征图放入ReLU激活函数,生成激活图。激活后的图像进行最大重叠池化,size为3×3,stride步长为2,池化后的特征图size为27×27×48。池化后进行LRN处理。但在2015年 Very Deep Convolutional Networks for Large-Scale Image Recognition.提到LRN基本没什么用。

第二层卷积池化:每组的27*27*48的输入图像各使用128个5*5*48的卷积核,Padding填充为2,步长为1进行卷积操作,输出图像大小为27*27*128。然后将27*27*128的特征图放入ReLU激活函数,生成激活图。激活后的图像进行最大重叠池化,size为3×3,stride步长为2,池化后的特征图size为13*13*128。池化后进行LRN处理。

第三、四、五层卷积:输入图像13*13*128,每组13*13*128的图像使用192个3*3*128的卷积核,步长为1,padding为1,卷积后输出图像为13*13*192。之后再使用192个3*3*192的卷积核,步长为1,padding填充为1,卷积后的输出图像为13*13*192。输入图像13*13*192,每组13*13*192的图像使用128个3*3*192的卷积核,步长为1,padding为1,卷积后输出图像为13*13*128。最后进行最大池化,size3*3,步长为2,池化后的特征图是6*6*128。

第六、七层两个全连接层的节点数都是4096,第八层全连接层有1000个结点。AlexNet在前两层全连接层前使用了dropout,以0.5的概率使得每个隐藏层的神经元输出0,既不参与前向传播,也不参与反向传播。这种方法弱化了神经元之间的依赖性。

AlexNet的PyTorch实现如下:

class AlexNet(nn.Module):
    def __init__(self, num_classes: int = 1000, dropout: float = 0.5) -> None:
        super().__init__()
        _log_api_usage_once(self)
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(p=dropout),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=dropout),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值