《动手学深度学习2.0》学习笔记（二）

最新推荐文章于 2024-08-26 20:53:16 发布

深度菜鸟

最新推荐文章于 2024-08-26 20:53:16 发布

阅读量1k

点赞数 20

分类专栏：动手学深度学习文章标签：深度学习学习笔记

本文链接：https://blog.csdn.net/m0_51619560/article/details/135669680

版权

动手学深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

《动手学深度学习2.0》学习笔记（二）

《动手学深度学习2.0》电子书的链接地址为https://zh.d2l.ai/index.html

本文记录了我在学习本书5-7章节（包括深度学习计算、卷积神经网络、现代卷积神经网络）过程中的理解和收获。

笔记首次发布于我的博客https://valoray.github.io/，排版比CSDN稍好看一些，但内容是一致的。

深度学习计算

块（block）
- 一个块可以由许多层组成；一个块可以由许多块组成。
- 从编程的角度来看，块由类（class）表示。每个块都必须定义一个将其输入转换为输出的前向传播函数，并且必须存储任何必需的参数。
Sequential类：用于把多个模块顺序地串起来
参数是复合的对象，包含值、梯度和额外信息。如何访问参数参考https://zh.d2l.ai/chapter_deep-learning-computation/parameters.html
参数初始化

加载和保存张量

x = torch.arange(4)
torch.save(x,"x-file")
load_x = torch.load("x-file")

加载和保存模型参数

这里保存的是模型的参数而不是保存整个模型。因为模型本身可以包含任意代码，所以模型本身难以序列化。因此，要想恢复模型，我们需要用代码生成架构，然后从磁盘加载参数。
```
# 保存模型参数
torch.save(net.state_dict(), 'mlp.params')
```
```
# 恢复模型
clone = MLP() # 先生成模型的架构
clone.load_state_dict(torch.load('mlp.params')) #再恢复模型的参数
```

卷积神经网络

从全连接层到卷积

空间不变性

平移不变性（translation invariance）：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”。图像的平移不变性使我们以相同的方式处理局部图像，而不在乎它的位置。
局部性（locality）：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。局部性意味着计算相应的隐藏表示只需一小部分局部图像像素。

图像卷积

卷积运算

卷积相关概念
- 卷积核（convolution kernel），又叫滤波器（filter）、该卷积层的权重，作用是：通过仅查看“输入-输出对”来学习由X生成Y
- 卷积层：
  - 可以指代应用卷积核的网络层
  - 也可以指代图像经过卷积核计算后的输出（即“输出的卷积层”），此时等价于特征映射（feature map），或特征图
- 卷积层被训练的参数包括：卷积核权重、标量权重
神经网络中的卷积运算实际对应数学上的互相关运算（cross-correlation）
感受野（receptive field）

以图1为例来解释感受野：给定 $2\times2$ 卷积核，阴影输出元素值19的感受野是输入阴影部分的四个元素。假设之前输出为 $\mathbf{Y}$ , 其大小为 $2\times2$ ，现在我们在其后附加一个卷积层，该卷积层以 $\mathbf{Y}$ 为输入，输出单个元素 $z$ 。在这种情况下， $\mathbf{Y}$ 上的 $z$ 的感受野包括 $\mathbf{Y}$ 的所有四个元素，而输入的感受野包括最初所有九个输入元素。因此，当一个特征图中的任意元素需要检测更广区域的输入特征时，我们可以构建一个更深的网络。
填充（padding）：旨在保留边界信息
步幅（stride）：当原始分辨率十分冗余时，加大步幅可以缩减采样次数，加快计算
怎么确定卷积操作相关的各种值？
1. 设置卷积核大小（kernel size）——(k_h,k_w)
  - 通常选奇数1，3，5，7…，目的是：padding通常按照如下规则设置p_h=k_h-1，p_w=k_w-1，kernel size选择奇数，p_h，p_w就能成为偶数，就能使填充时上下填充同样的行数、左右填充同样的列数，比较对称
2. 设置填充（padding）
  - 目的：通常是为了使输入和输出具有相同的高度和宽度，从而更易预测每个图层的输出形状
  - 一般设置：p_h=k_h-1，p_w=k_w-1，这里p_h代表上下填充的总行数，p_w代表左右填充的总列数
  - 在Python编程中，参数padding通常指的是上或下填充的行数（or 左或右填充的列数），也就是说p_h=2xpadding
3. 设置步长（stride）
  - stride=2，高/宽步长都设置为2，则输入高/宽都减半（输出时）
4. 求解输出形状
  $\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor\times\lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor.$
  如果设置了 $p_h=k_h-1$ 和 $p_w=k_w-1$ ，则输出形状将简化为
  $\lfloor(n_h+s_h-1)/s_h\rfloor\times\lfloor(n_w+s_w-1)/s_w\rfloor$

多输入多输出通道

多输入通道

两个输入通道的互相关计算

假设输入的通道数为 $c_i$ ，那么卷积核的输入通道数也需要为 $c_i$ ，因此卷积核的窗口形状是 $c_i\times k_h\times k_w$

当输入通道>1，输出通道=1时，进行互相关运算包括两个步骤：

每个通道输入的二维张量和卷积核的二维张量进行互相关运算
对通道求和（将 $c_i$ 的结果相加）得到二维张量

多输出通道

在最流行的神经网络架构中，随着神经网络层数的加深，我们常会增加输出通道的维数，通过减少空间分辨率以获得更大的通道深度。直观地说，我们可以将每个通道看作对不同特征的响应。而现实可能更为复杂一些，因为每个通道不是独立学习的，而是为了共同使用而优化的。因此，多输出通道并不仅是学习多个单通道的检测器。

用 $c_i$ 和 $c_o$ 分别表示输入和输出通道的数目，并让 $k_h$ 和 $k_w$ 为卷积核的高度和宽度。为了获得多个通道的输出，我们可以为每个输出通道创建一个形状为 $c_i\times k_h\times k_w$ 的卷积核张量，这样卷积核的形状 $c_o\times c_i\times k_h\times k_w$ 。在互相关运算中，每个输出通道先获取所有输入通道，再以对应该输出通道的卷积核
计算出结果。

卷积核的形状是 $c_o\times c_i\times k_h\times k_w$ ，可以理解为有 $c_o$ 套卷积核，每个卷积核的维度为 $c_i\times k_h\times k_w$ ，因此每个卷积核的输出为一个二维张量， $c_o$ 套卷积核的输出就为 $c_o$ 套二维张量，堆叠起来就是“多个”输出通道 $c_o$

1x1卷积层

互相关计算使用了具有3个输入通道和2个输出通道的1×1卷积核。其中，输入和输出具有相同的高度和宽度。

特点：失去了在高度和宽度维度上，识别相邻元素间相互作用的能力（卷积层的特有能力）
用途：调整通道数量，用来将 $c_i$ 个输入值转换为 $c_o$ 个输出值，可看作在每个像素位置应用的全连接层
1x1卷积层的权重维度为 $c_o\times c_i$ ，再额外加上一个偏置。

这里的 $c_o$ 表示有 $c_o$ 套1x1卷积核， $c_i$ 代表卷积核自身的通道数要和输入的通道数相同。（换句话说，这里等价于说卷积核的形状是 $c_o\times c_i\times 1\times 1$ ）

汇聚层pooling

目的：降低卷积层对位置的敏感性，同时降低对空间下采样表示的敏感性。
特点：
- 不包含参数，运算是确定的（maximum or average pooling）
- pooling层的输出通道数与输入通道数相同
使用注意：默认情况下，pooling窗口的大小与步幅相同

LeNet

LeNet是最早发布的卷积神经网络之一（1989年）

LeNet（LeNet-5）由两个部分组成：
- 卷积编码器：由两个卷积层组成;
- 全连接层密集块：由三个全连接层组成。
LeNet使用了sigmoid激活函数
LeNet使用了权重衰减来控制全连接层的模型复杂度

LeNet架构图

现代卷积神经网络

2012年前后，如何表征图像特征的观点发生了进化。2012年前，图像特征都是机械计算出来的，2012年后新的观点涌动起来——特征本身应该是被学习的。

现代卷积神经网络：

AlexNet。它是第一个在大规模视觉竞赛中击败传统计算机视觉模型的大型神经网络；
使用重复块的网络（VGG）。它利用许多重复的神经网络块；
网络中的网络（NiN）。它重复使用由卷积层和1×1卷积层（用来代替全连接层）来构建深层网络;
含并行连结的网络（GoogLeNet）。它使用并行连结的网络，通过不同窗口大小的卷积层和最大汇聚层来并行抽取信息；
残差网络（ResNet）。它通过残差块构建跨层的数据通道，是计算机视觉中最流行的体系架构；
稠密连接网络（DenseNet）。它的计算成本很高，但给我们带来了更好的效果。

AlexNet

AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。
AlexNet使用ReLU作为其激活函数。
AlexNet通过dropout控制全连接层的模型复杂度

AlexNet架构图

使用块的网络VGG

VGG网络可以分为两部分：第一部分主要由卷积层和汇聚层组成，第二部分由全连接层组成。
原始VGG网络有5个卷积块，其中前两个块各有一个卷积层，后三个块各包含两个卷积层。

VGG架构

LeNet、AlexNet和VGG都有一个共同的设计模式：通过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。

网络中的网络NiN

卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度。另外，全连接层的输入和输出通常是分别对应于样本和特征的二维张量。NiN的想法是在每个像素位置 (针对每个高度和宽度) 应用一个全连接层。如果我们将权重连接到每个空间位置，我们可以将其视为 $1\times1$ 卷积层 , 或作为在每个像素位置上独立作用的全连接层。从另一个角度看，即将空间维度中的每个像素视为单个样本，将通道维度视为不同特征 (feature) 。

NiN块以一个普通卷积层开始，后面是两个 $1\times1$ 的卷积层。这两个 $1\times1$ 卷积层充当带有ReLU激活函数的逐像素全连接层。第一层的卷积窗口形状通常由用户设置。随后的卷积窗口形状固定为 $1\times1$ 。

NiN和AlexNet之间的一个显著区别是NiN完全取消了全连接层。相反，NiN使用一个NiN块，其输出通道数等于标签类别的数量。最后放一个全局平均汇聚层（global average pooling layer），生成一个对数几率（logits）。NiN设计的一个优点是，它显著减少了模型所需参数的数量。然而，在实践中，这种设计有时会增加训练模型的时间。

NiN的架构

含并行连结的网络GoogLeNet

Inception块

Inception块的架构

如图所示，Inception块由四条并行路径组成。前三条路径使用窗口大小为 $1\times1\times3\times3$ 和 $5\times5$ 的卷积层，从不同空间大小中提取信息。中间的两条路径在输入上执行 $1\times1$ 卷积，以减少通道数，从而降低模型的复杂性。第四条路径使用 $3\times3$ 最大汇聚层，然后使用 $1\times1$ 卷积层来改变通道数。这四条路径都使用合适的填充来使输入与输出的高和宽一致，最后我们将每条线路的输出在通道维度上连结，并构成Inception块的输出。在Inception块中，通常调整的超参数是每层输出通道数。

GoogLeNet模型

GoogLeNet一共使用9个Inception块和全局平均汇聚层的堆叠来生成其估计值。Inception块之间的最大汇聚层可降低维度。

GoogLeNet架构

批量规范化

批量规范化应用于单个可选层（也可以应用到所有层），其原理如下：在每次训练迭代中，我们首先规范化输入，即通过减去其均值并除以其标准差，其中两者均基于当前小批量处理。接下来，我们应用比例系数和比例偏移。

从形式上来说，用 $\mathbf{x}\in\mathcal{B}$ 表示一个来自小批量 $\mathcal{B}$ 的输入，批量规范化BN根据以下表达式转换 $\mathbf{x}:$
$\mathrm{BN}(\mathbf{x})=\boldsymbol{\gamma}\odot\frac{\mathbf{x}-\hat{\boldsymbol{\mu}}_{\mathcal{B}}}{\hat{\boldsymbol{\sigma}}_{\mathcal{B}}}+\boldsymbol{\beta}.$

$\hat{\mu}_{B}$ 是小批量 $\mathcal{B}$ 的样本均值， $\hat{\sigma}_{B}$ 是小批量 $\mathcal{B}$ 的样本标准差。应用标准化后，生成的小批量的平均值为0和单位方差为1。由于单位方差 (与其他一些魔法数) 是一个主观的选择，因此我们通常包含拉伸参数(scale) $\gamma$ 和偏移参数(shift) $\beta$ ，它们的形状与x相同。 $\gamma$ 和 $\beta$ 是需要与其他模型参数一起学习的参数。

批量规范化层和dropout层一样，在训练模式和预测模式下计算不同。

批量规范化层在”训练模式“（通过小批量统计数据规范化）和“预测模式”（通过数据集统计规范化）中的功能不同。在训练过程中，我们无法得知使用整个数据集来估计平均值和方差，所以只能根据每个小批次的平均值和方差不断训练模型。而在预测模式下，可以根据整个数据集精确计算批量规范化所需的平均值和方差。

批量规范化层

批量规范化和其他层之间的一个关键区别是，由于批量规范化在完整的小批量上运行，因此我们不能像以前在引入其他层时那样忽略批量大小。我们在下面讨论这两种情况：全连接层和卷积层，他们的批量规范化实现略有不同。

全连接层

将批量规范化层置于全连接层中的仿射变换和激活函数之间。设全连接层的输入为x，权重参数和偏置参数分别为 $\mathbf{W}$ 和b，激活函数为 $\phi$ ,批量规范化的运算符为BN。那么，使用批量规范化的全连接层的输出的计算详情如下：
$\mathbf{h}=\phi(\mathrm{BN}(\mathbf{W}\mathbf{x}+\mathbf{b})).$

卷积层

对于卷积层，在卷积层之后和非线性激活函数之前应用批量规范化。

当卷积有多个输出通道时，我们需要对这些通道的“每个”输出执行批量规范化，每个通道都有自己的拉伸 (scale) 和偏移(shift) 参数，这两个参数都是标量。假设我们的小批量包含 $m$ 个样本，并且对于每个通道，卷积的输出具有高度 $p$ 和宽度 $q$ 。那么对于卷积层，我们在每个输出通道的 $m\cdot p\cdot q$ 个元素上同时执行每个批量规范化。因此，在计算平均值和方差时，我们会收集所有空间位置的值，然后在给定通道内应用相同的均值和方差，以便在每个空间位置对值进行规范化。

预测过程中的批量归一化

通过移动平均估算整个训练数据集的样本均值和方差，并在预测时使用它们得到确定的输出。

残差网络ResNet

残差块

在残差块中，输入可通过跨层数据线路更快地向前传播。

一个正常块（左图）和一个残差块（右图）

ResNet的残差块里：

首先有2个有相同输出通道数的 $3\times3$ 卷积层。每个卷积层后接一个批量规范化层和ReLU激活函数。
然后我们通过跨层数据通路，跳过这2个卷积运算，将输入直接加在最后的ReLU激活函数前。这样要求2个卷积层的输出与输入形状一样，从而使它们可以相加。
如果想改变通道数，就需要引入一个额外的 $1\times1$ 卷积层来将输入变换成需要的形状后再做相加运算。

残差块的实现如下：

包含以及不包含 1×1 卷积层的残差块

ResNet模型

ResNet使用了4个大模块，每个大模块使用了若干相同输出通道数的残差块。
第一个模块的输出通道数同输入通道数一致。由于之前已经使用了步幅为2的最大汇聚层，所以无须减小高和宽。
之后的每个模块在第一个残差块里将上一个模块的通道数翻倍，并将高和宽减半。

ResNet-18 架构

深度菜鸟

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
《动手学深度学习2.0》学习笔记（二）

动手学深度学习2.0》电子书的链接地址为https://zh.d2l.ai/index.html本文记录了我在学习本书5-7章节（包括深度学习计算、卷积神经网络、现代卷积神经网络）过程中的理解和收获。笔记首次发布于我的博客https://valoray.github.io/，排版比CSDN稍好看一些，但内容是一致的。more。
复制链接

扫一扫

专栏目录