经典网络结构(一)：LeNet、AlexNet

最新推荐文章于 2024-03-23 10:04:22 发布

连理o

最新推荐文章于 2024-03-23 10:04:22 发布

阅读量433

点赞数 2

分类专栏：深度学习文章标签：卷积神经网络计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/weixin_42437114/article/details/106955028

版权

深度学习专栏收录该内容

27 篇文章 14 订阅

订阅专栏

本文参考： $D i v e$ $I n t o$ $D e e p$ $L e a r n i n g$

LeNet

LeNet 是进行手写数字识别的网络，分为卷积层块和全连接层块两个部分，激活函数都使用 sigmoid
- 在卷积层块中，每个卷积核的 stride 均为 1，padding 均为 0。第一个卷积层输出通道数为 6，第二个卷积层输出通道数则增加到 16。这是因为第二个卷积层比第一个卷积层的输入的高和宽要小，所以增加输出通道使两个卷积层的参数尺寸类似；卷积层块的两个最大池化层的窗口形状均为 $2 \times 2$ ，且步幅为 2
  $\begin{aligned} Conv(6, Input\_channel, 5, 5) \rightarrow MaxPool(2, 2) \rightarrow Conv(16, 6, 5, 5)\\ \rightarrow MaxPool(2, 2) \end{aligned}$
- 全连接层块含 3 个全连接层。它们的输出个数分别是 120、84 和 10，其中 10 为输出的类别个数

# 以 (1, 28, 28) 的 Mnist 手写数字数据集为例
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(1, 6, 5),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2),
            nn.Conv2d(6, 16, 5),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2)
        )
        self.classifier = nn.Sequential(
            nn.Linear(16 * 4 * 4, 120),
            nn.Sigmoid(),
            nn.Linear(120, 84),
            nn.Sigmoid(),
            nn.Linear(84, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.shape[0], -1)
        x = self.classifier(x)
        
        return x

AlexNet

AlexNet 与 LeNet 的设计理念非常相似，但也有显著的区别
- (1) 激活函数全部使用 ReLU，相比 sigmoid 计算更简单且缓解了梯度消失问题
- (2) 与相对较小的 LeNet 相比，AlexNet 包含 8 层变换，其中有 5 层卷积和 2 层全连接隐藏层，以及 1 个全连接输出层
  - AlexNet 第一层中的卷积窗口形状是 $11 \times 11$ 。因为 ImageNet 中绝大多数图像的高和宽均比 MNIST 图像的高和宽大 10 倍以上，ImageNet 图像的物体占用更多的像素，所以需要更大的卷积窗口来捕获物体。 同时使用步幅 4来较大幅度减小输出高和宽。而且相比于 LeNet，输出的通道数也要大很多
    $\begin{aligned} Conv(96, Input\_channel, 11, 11),s=4 \rightarrow MaxPool(3, 3),s=2 \end{aligned}$
  - 第二层中的卷积窗口形状减小到 $5 \times 5$
    $\begin{aligned} \rightarrow Conv(256, 96, 5, 5),p=2 \rightarrow MaxPool(3, 3),s=2 \end{aligned}$
  - 之后的卷积核都采用 $3 \times 3$
    $\begin{aligned} \rightarrow Conv(384, 256, 3, 3),p=1 \end{aligned}$ $\begin{aligned} \rightarrow Conv(384, 384, 3, 3),p=1 \end{aligned}$ $\begin{aligned} \rightarrow Conv(256, 384, 3, 3),p=1 \rightarrow MaxPool(3, 3),s=2 \end{aligned}$
  - 紧接着最后一个卷积层的是两个输出个数为 4096 的全连接层。这两个巨大的全连接层带来将近 1GB 的模型参数。同时每个全连接层后还添加了 Dropout 层
  - 最后一个全连接输出层输出个数为类别数
- (3) AlexNet 引入了大量的图像增广，如翻转、裁剪和颜色变化，从而进一步扩大数据集来缓解过拟合

# 以(1, 28, 28)的Mnist手写数字数据集为例
# 这里在加入网络训练之前先要把图片更改大小为与ImageNet中图片相同的224*224 (torchvision.transforms.Resize)
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(1, 96, 11, 4),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3, 2),
            nn.Conv2d(96, 256, 5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3, 2),
            nn.Conv2d(256, 384, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 384, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3, 2),
        )
        self.classifier = nn.Sequential(
            nn.Linear(256 * 5 * 5, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5, inplace=False),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5, inplace=False),
            nn.Linear(4096, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.shape[0], -1)
        x = self.classifier(x)
        
        return x

连理o

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
经典网络结构(一)：LeNet、AlexNet

本文参考：《DIVE INTO DEEP LEARNING》目录LeNetAlexNetLeNetLeNet是进行手写数字识别的网络LeNet分为卷积层块和全连接层块两个部分，激活函数都使用sigmoid。在卷积层块中，每个卷积核的stride均为1，padding均为0。第一个卷积层输出通道数为6，第二个卷积层输出通道数则增加到16。这是因为第二个卷积层比第一个卷积层的输入的高和宽要小，所以增加输出通道使两个卷积层的参数尺寸类似。卷积层块的两个最大池化层的窗口形状均为 2×22×22×2 ，
复制链接

扫一扫