AlexNet论文[imagenet.pdf (toronto.edu)]。AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。在图像分类上准确率远超在其之前的神经卷积网络。
AlexNet的输入要求是固定的分辨率224*224*3,为此在训练前,首先重新缩放图像,使得较短边的长度为224,然后从结果图像的中心裁剪出224*224大小的图片。原始图像经预处理就变为224*224*3。
AlexNet的网络结构如图:
AlexNet由输入层,5个卷积层,3个全连接层组成。网络是分布在2个GPU上的,部分层只跟同一个GPU中的上一层连接。
卷积后的长 = [(输入图像的长-卷积核的尺寸-2*填充圈数)/ 滑动步长 ] + 1
池化后的长 = [(输入图像的长-池化尺寸)/ 滑动步长 ] + 1
第一层卷积池化:论文中的输入图像是224*224尺寸的,但根据卷积核计算输出的尺寸并不是55*55,但如果输入是227*227尺寸的,经过计算得到的是55*55,所以正确的输入尺寸是227*227。使用96个尺寸为11*11*3的卷积核进行卷积计算,分成两份输入到两个GPU中,stride步长为4,输出size为55*55*48。然后将55×55×48的特征图放入ReLU激活函数,生成激活图。激活后的图像进行最大重叠池化,size为3×3,stride步长为2,池化后的特征图size为27×27×48。池化后进行LRN处理。但在2015年 Very Deep Convolutional Networks for Large-Scale Image Recognition.提到LRN基本没什么用。
第二层卷积池化:每组的27*27*48的输入图像各使用128个5*5*48的卷积核,Padding填充为2,步长为1进行卷积操作,输出图像大小为27*27*128。然后将27*27*128的特征图放入ReLU激活函数,生成激活图。激活后的图像进行最大重叠池化,size为3×3,stride步长为2,池化后的特征图size为13*13*128。池化后进行LRN处理。
第三、四、五层卷积:输入图像13*13*128,每组13*13*128的图像使用192个3*3*128的卷积核,步长为1,padding为1,卷积后输出图像为13*13*192。之后再使用192个3*3*192的卷积核,步长为1,padding填充为1,卷积后的输出图像为13*13*192。输入图像13*13*192,每组13*13*192的图像使用128个3*3*192的卷积核,步长为1,padding为1,卷积后输出图像为13*13*128。最后进行最大池化,size3*3,步长为2,池化后的特征图是6*6*128。
第六、七层两个全连接层的节点数都是4096,第八层全连接层有1000个结点。AlexNet在前两层全连接层前使用了dropout,以0.5的概率使得每个隐藏层的神经元输出0,既不参与前向传播,也不参与反向传播。这种方法弱化了神经元之间的依赖性。
AlexNet的PyTorch实现如下:
class AlexNet(nn.Module):
def __init__(self, num_classes: int = 1000, dropout: float = 0.5) -> None:
super().__init__()
_log_api_usage_once(self)
self.features = nn.Sequential(
nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(64, 192, kernel_size=5, padding=2),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Conv2d(192, 384, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(384, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256, 256, kernel_size=3, padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(kernel_size=3, stride=2),
)
self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
self.classifier = nn.Sequential(
nn.Dropout(p=dropout),
nn.Linear(256 * 6 * 6, 4096),
nn.ReLU(inplace=True),
nn.Dropout(p=dropout),
nn.Linear(4096, 4096),
nn.ReLU(inplace=True),
nn.Linear(4096, num_classes),
)
def forward(self, x: torch.Tensor) -> torch.Tensor:
x = self.features(x)
x = self.avgpool(x)
x = torch.flatten(x, 1)
x = self.classifier(x)
return x