神经网络与深度学习期末复习（2）---卷积神经网络扩展机制

冒冒菜菜

已于 2024-04-29 12:47:09 修改

阅读量1k

点赞数 19

分类专栏：深度学习从0到1 文章标签：深度学习卷积变体

于 2024-03-27 20:45:54 首次发布

本文链接：https://blog.csdn.net/m0_62881487/article/details/137086368

版权

深度学习从0到1 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

一、注意力机制
二、分组卷积
- 2.1 概述
- 2.2 参数量变换
三、深度可分离卷积
- 3.1 概述
- 3.2 计算
四、膨胀卷积

一、注意力机制

1. Attention机制的本质来自于人类视觉注意力机制。深度学习与视觉注意力机制结合，通过学习训练，让深度神经网络学到每一张新图片中需要关注的区域，也就形成了注意力。

2. 分类：

分类方式	第一种	第二种
按照注意机制产生的方式	自顶向下的注意机制或称聚焦式（Focus）注意机制	自底向上的注意机制或称显著性（Saliency-based）的注意机制
按照注意机制作用特征的形式	基于项的（Item-wise）注意机制	基于位置（Location-wise）的注意机制
按照注意机制本身的形式	软注意机制或柔性注意机制	硬注意机制或称刚性注意机制

注意力机制的具体内容和机制可以参考博主写的这篇博客：
https://blog.csdn.net/m0_62881487/article/details/135738486

二、分组卷积

2.1 概述

1. 分组卷积（Group convolution ）最早在AlexNet中出现，由于当时的硬件资源有限，训练AlexNet时卷积操作不能全部放在同一个GPU处理，因此把特征图分给多个GPU分别进行处理，最后把多个GPU的结果进行融合。

2. 一般的卷积会对输入数据的整体一起做卷积操作。而组卷积则是在深度上进行划分，即某几个通道编为一组，对输入数据做组合卷积操作。

在这里插入图片描述

2.2 参数量变换

1. 标准的 $2 D$ 卷积步骤如下图所示：输入特征为： $H \times W \times C$ ，然后应用 $C^{'}$ 个卷积核组（每个卷积核组的大小为 $h \times w \times c$ ），输入层被转换为大小为 $H^{'} \times W^{'} \times C^{'}$ 的输出特征。

在这里插入图片描述

2. 分组卷积的表示如下图所示。我们计算一下标准 $2 D$ 卷积和分组卷积的参数量：
标准 $2 D$ 卷积： $w \times h \times C \times C^{'}$
分组卷积： $w \times h \times C / 2 \times C^{'} / 2 \times 2$
我们可以发现参数量减少到原来的 $1 / 2$ ，那当Group为 $4$ 的时候，参数量将会减少到原来的 $1 / 4$ 。

在这里插入图片描述

三、深度可分离卷积

3.1 概述

1. 在深度可分离卷积（depthwise separable convolution）中，通常将卷积操作拆分成多个步骤。深度可分离卷积把普通卷积拆分成 $D W$ 卷积（Depthwise Convolution，深度卷积）和 $P W$ 卷积（Point Convolution，点卷积）两部分。即：深度可分离卷积 = 深度卷积 + 点卷积。

在这里插入图片描述

2. 深度卷积完成后的特征图数量与输入层的通道数相同。但这种运算对输入层的每个通道独立进行卷积运算，没有有效地利用不同通道在相同空间位置上的特征信息。因此需要点卷积来将这些特征图进行组合生成新的特征图。

3. 举例：
(1) 在第一部分深度卷积中，我们在不改变深度的情况下，对输入图像进行了分组卷积。我们使用 $3$ 个 $5 \times 5 \times 1$ 形状的卷积核。每个 $5 \times 5 \times 1$ 卷积核迭代图像的 $1$ 个通道（注意： $1$ 个通道，而不是所有通道），得到 $3$ 个 $8 \times 8 \times 1$ 的图像。将这些图像叠加在一起可创建 $8 \times 8 \times 3$ 的图像。

在这里插入图片描述

(2) 点卷积的运算与常规卷积运算非常相似，它的卷积核的尺寸为 $1 \times 1 \times M$ ， $M$ 为上一层的通道数。所以这里的卷积运算会将上一步的图像在深度方向上进行加权组合，生成新的特征图。有几个卷积核就有几个输出图像。
点向卷积之所以如此命名是因为它使用了一个 $1 \times 1$ 卷积核，我们通过 $1 \times 1 \times 3$ 卷积核迭代 $8 \times 8 \times 3$ 图像，得到 $8 \times 8 \times 1$ 图像。我们可以创建 $256$ 个 $1 \times 1 \times 3$ 卷积核，每个卷积核输出一个 $8 \times 8 \times 1$ 图像，全部叠加到一起得到形状为 $8 \times 8 \times 256$ 的最终图像。
在这里插入图片描述

在这里插入图片描述

3.2 计算

用上面这个例子：
(1) 普通卷积参数量为： $3 \times 256 \times 5 \times 5$
(2) 深度可分离卷积参数量为： $3 \times 5 \times 5 + 3 \times 256 \times 1 \times 1$

四、膨胀卷积

1. 膨胀卷积与普通的卷积相比，除了卷积核的大小以外，还有一个膨胀率（dilation rate）参数，主要用来表示膨胀的大小。卷积核的膨胀率（dilate rate）属性定义为卷积核的元素间距。如 dilate rate=2 是每隔一个像素位置应用一个卷积元素，dilate rate=1 就是普通的卷积。具体含义就是在卷积核中填充 dilation rate 个 0。

2. (a) 是普通卷积，1-dilated convolution，卷积核的感受野为 $3 \times 3 = 9$ ； (b) 是膨胀卷积，2-dilated convolution，卷积核的感受野为 $5 \times 5 = 25$ ；（c) 是膨胀卷积，4-dilated convolution，卷积核的感受野为 $9 \times 9 = 81$ 。

在这里插入图片描述

3. 卷积核经过膨胀后实际参与运算的卷积大小计算公式：膨胀后的卷积核尺寸 = 膨胀系数 $\times$ (原始卷积核尺寸 $- 1$ ） $+ 1$

冒冒菜菜

关注

19
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
神经网络与深度学习期末复习（2）---卷积神经网络扩展机制

1. 分组卷积（Group convolution ）最早在AlexNet中出现，由于当时的硬件资源有限，训练AlexNet时卷积操作不能全部放在同一个GPU处理，因此把特征图分给多个GPU分别进行处理，最后把多个GPU的结果进行融合。2. 一般的卷积会对输入数据的整体一起做卷积操作。而组卷积则是在深度上进行划分，即某几个通道编为一组，对输入数据做组合卷积操作。1. 在深度可分离卷积（depthwise separable convolution）中，通常将卷积操作拆分成多个步骤。
复制链接

扫一扫