为了小论文之跟着李沐学AI(十一)

最新推荐文章于 2024-07-17 21:40:42 发布

70pice

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量418

点赞数 1

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/qq_36309174/article/details/121362460

版权

LeNet

在这里插入图片描述
数据集是MNIST数据集，大小为28*28,但是我们padding=2,在上下左右都加了4行变成32 * 32的矩阵
在进行一个卷积层，这个卷积层有6个output通道

在这里插入图片描述
在此之前，我们介绍一下nn.Conv2d这个函数

net = torch.nn.Sequential(
    Reshape(),
    nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2),
    nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2),
    nn.Flatten(),
    nn.Linear(16 * 5 * 5, 120), nn.Sigmoid(),
    nn.Linear(120, 84), nn.Sigmoid(),
    nn.Linear(84, 10))
X = torch.rand(size=(1, 1, 28, 28), dtype=torch.float32)

直接上代码比较容易理解
一开始，我们会通过一个input通道为1，output通道为6的卷积层，我们的输入一开始
1 * 1 * 28 * 28,经过padding 变成1 * 1 * 32 * 32 卷积后变成 1* 6 28 * 28，用sigmod函数激活一下
经过池化，这个池化层的大小为一个2 * 2的矩阵，步伐为2，经过计算（我真的自己算了）
变成一个 1 * 6 * 14 * 14的矩阵
再经过一个卷积层变成 1 * 16 * 10 * 10 的矩阵
再经过一个池化层变成 1 * 16 * 5 * 5的矩阵
拉平变成一个 1 * 400 的矩阵，拉平就是变成一行
通过一个全连接层变成一个 1 * 120 的矩阵
在通过一个全连接层变成 1 84的矩阵
最后经过一个output全连接层变成一个10维的标量

这个就是我们LeNet，
你要仔细思考，这个网络层关键吗，他不关键。
关键的是这个思想，什么思想，我们都是把一个图像通过多通道提取特征，然后把这些通道变成一个一维的向量

其实你看这个网络层并没有用到一些很关键的技巧

AlexNe（进化的LeNet）

在这里插入图片描述
没什么说的。。真的，就是LeNet的升级版，就是换汤不换药,you konw

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
    # 这里，我们使用一个11*11的更大窗口来捕捉对象。
    # 同时，步幅为4，以减少输出的高度和宽度。
    # 另外，输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 使用三个连续的卷积层和较小的卷积窗口。
    # 除了最后的卷积层，输出通道的数量进一步增加。
    # 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Flatten(),
    # 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过度拟合
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    # 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000
    nn.Linear(4096, 10))

不多说，换汤不换药