经典网络结构(一):LeNet、AlexNet

  • 本文参考: D i v e Dive Dive I n t o Into Into D e e p Deep Deep L e a r n i n g Learning Learning

目录

LeNet

  • LeNet 是进行手写数字识别的网络,分为卷积层块全连接层块两个部分,激活函数都使用 sigmoid
    • 卷积层块中,每个卷积核的 stride 均为 1,padding 均为 0。第一个卷积层输出通道数为 6,第二个卷积层输出通道数则增加到 16。这是因为第二个卷积层比第一个卷积层的输入的高和宽要小,所以增加输出通道使两个卷积层的参数尺寸类似;卷积层块的两个最大池化层的窗口形状均为 2 × 2 2×2 2×2 ,且步幅为 2
      C o n v ( 6 , I n p u t _ c h a n n e l , 5 , 5 ) → M a x P o o l ( 2 , 2 ) → C o n v ( 16 , 6 , 5 , 5 ) → M a x P o o l ( 2 , 2 ) \begin{aligned} Conv(6, Input\_channel, 5, 5) \rightarrow MaxPool(2, 2) \rightarrow Conv(16, 6, 5, 5)\\ \rightarrow MaxPool(2, 2) \end{aligned} Conv(6,Input_channel,5,5)MaxPool(2,2)Conv(16,6,5,5)MaxPool(2,2)
    • 全连接层块含 3 个全连接层。它们的输出个数分别是 120、84 和 10,其中 10 为输出的类别个数
      在这里插入图片描述
# 以 (1, 28, 28) 的 Mnist 手写数字数据集为例
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(1, 6, 5),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2),
            nn.Conv2d(6, 16, 5),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2)
        )
        self.classifier = nn.Sequential(
            nn.Linear(16 * 4 * 4, 120),
            nn.Sigmoid(),
            nn.Linear(120, 84),
            nn.Sigmoid(),
            nn.Linear(84, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.shape[0], -1)
        x = self.classifier(x)
        
        return x

AlexNet

  • AlexNet 与 LeNet 的设计理念非常相似,但也有显著的区别
    • (1) 激活函数全部使用 ReLU,相比 sigmoid 计算更简单且缓解了梯度消失问题
    • (2) 与相对较小的 LeNet 相比,AlexNet 包含 8 层变换,其中有 5 层卷积和 2 层全连接隐藏层,以及 1 个全连接输出层
      • AlexNet 第一层中的卷积窗口形状是 11 × 11 11×11 11×11因为 ImageNet 中绝大多数图像的高和宽均比 MNIST 图像的高和宽大 10 倍以上,ImageNet 图像的物体占用更多的像素,所以需要更大的卷积窗口来捕获物体。 同时使用步幅 4来较大幅度减小输出高和宽。而且相比于 LeNet,输出的通道数也要大很多
        C o n v ( 96 , I n p u t _ c h a n n e l , 11 , 11 ) , s = 4 → M a x P o o l ( 3 , 3 ) , s = 2 \begin{aligned} Conv(96, Input\_channel, 11, 11),s=4 \rightarrow MaxPool(3, 3),s=2 \end{aligned} Conv(96,Input_channel,11,11),s=4MaxPool(3,3),s=2
      • 第二层中的卷积窗口形状减小到 5 × 5 5×5 5×5
        → C o n v ( 256 , 96 , 5 , 5 ) , p = 2 → M a x P o o l ( 3 , 3 ) , s = 2 \begin{aligned} \rightarrow Conv(256, 96, 5, 5),p=2 \rightarrow MaxPool(3, 3),s=2 \end{aligned} Conv(256,96,5,5),p=2MaxPool(3,3),s=2
      • 之后的卷积核都采用 3 × 3 3×3 3×3
        → C o n v ( 384 , 256 , 3 , 3 ) , p = 1 \begin{aligned} \rightarrow Conv(384, 256, 3, 3),p=1 \end{aligned} Conv(384,256,3,3),p=1 → C o n v ( 384 , 384 , 3 , 3 ) , p = 1 \begin{aligned} \rightarrow Conv(384, 384, 3, 3),p=1 \end{aligned} Conv(384,384,3,3),p=1 → C o n v ( 256 , 384 , 3 , 3 ) , p = 1 → M a x P o o l ( 3 , 3 ) , s = 2 \begin{aligned} \rightarrow Conv(256, 384, 3, 3),p=1 \rightarrow MaxPool(3, 3),s=2 \end{aligned} Conv(256,384,3,3),p=1MaxPool(3,3),s=2
      • 紧接着最后一个卷积层的是两个输出个数为 4096 的全连接层。这两个巨大的全连接层带来将近 1GB 的模型参数。同时每个全连接层后还添加了 Dropout
      • 最后一个全连接输出层输出个数为类别数
    • (3) AlexNet 引入了大量的图像增广,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合
# 以(1, 28, 28)的Mnist手写数字数据集为例
# 这里在加入网络训练之前先要把图片更改大小为与ImageNet中图片相同的224*224 (torchvision.transforms.Resize)
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(1, 96, 11, 4),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3, 2),
            nn.Conv2d(96, 256, 5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3, 2),
            nn.Conv2d(256, 384, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 384, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3, 2),
        )
        self.classifier = nn.Sequential(
            nn.Linear(256 * 5 * 5, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5, inplace=False),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5, inplace=False),
            nn.Linear(4096, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.shape[0], -1)
        x = self.classifier(x)
        
        return x
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值