深度学习解析：转置卷积详解与参数计算-CSDN博客

本文链接：https://blog.csdn.net/caipengbenren/article/details/119885021

最近学习深度学习的过程中，发现网上对于转置卷积的参数理解的文章较少，因此记录下个人的理解，仅供参考，欢迎指出错误，感谢。

卷积层和池化层，通常会减少下采样输入图像的空间维度，增加通道信息。在以像素级分类的语义分割中有使用转置卷积使得输入和输出的图像的空间维度相同，例如FCN（全卷积神经网络），它将全连接层替换成一个转置卷积层，将分类的预测概率保存在通道中。

一个例子介绍转置卷积直观计算效果

如图，输入是一个2 * 2的矩阵 $X$ ，kernel size 是2 *2，padding是0，stride是1，输出一个3 * 3的矩阵Y。
具体计算： $X_{i,j}$ 和 $K$ 做乘法，累加到 $Y[i:i+kernel\ size,j:j+kernel\ size]$ 。

转置卷积的定义以及计算过程

对于卷积 $Y = X * W$
- 可以对 $W$ 构造一个V，使得卷积等价于计算矩阵乘法 $Y^{1}=VX^{1}$ 。
- 这里的 $Y^{1}$ ， $X^{1}$ 是 $Y$ ， $X$ 对应的向量展开。
转置卷积则等价于 $Y^{1}=V^{T}X^{1}$
如果卷积将输入从 $(h, w)$ 变成 $h^{1},w^{1})$ ，则同样的超参数的转置矩阵则从 $h^{1},w^{1})$ 变成 $(h, w)$ 。

具体说明
对于一个size为2 * 2 的输入矩阵X，和一个大小为2 * 2 的卷积核

$\begin{bmatrix} x_{11}&x_{12} \\ x_{21} &x_{22} \\ \end{bmatrix}$

计算输出 $Y$ 的具体实现方法为矩阵乘法。
将卷积核表示为稀疏矩阵 $v$ ：
$\begin{bmatrix} w_{11} &w_{12} &0 &w_{21} &w_{22} &0 & 0 &0 &0\\ 0 &w_{11} & w_{12} &0 & w_{21} & w_{22} &0 &0 &0\\ 0 &0 &0 &w_{11} &w_{12} &0 & w_{21} &w_{22} & 0 \\ 0 &0 &0 &0 & w_{11} &w_{12} &0 &w_{21} & w_{22} \\ \end{bmatrix}$

每一行向量表示在一个位置的卷积操作，0填充表示卷积核未覆盖到的区域。

将输入 $X$ 展开为列向量：
$\begin{bmatrix} x_{11} & x_{12} & x_{21} & x_{22} \end{bmatrix}^T$
则卷积操作可以表示为：
$Y = V X$
转置卷积则可以表示为：
$Y^{1}=V^{T}X^{1}$

转置卷积的填充和步长

转置卷积也是一种卷积，它将输入和核进行了重新排序，同卷积不同的是它通常作用上采样。

1 当填充为0步长为1时

将输入填充 $k - 1$ 。
将核矩阵上下，左右翻转。
之后正常做填充为0，步幅为1的卷积。

2 当填充为 $p$ 步幅为1时

将输入填充 $k - p - 1$ 。
将核矩阵上下，左右翻转。
之后正常做填充为0，步幅为1的卷积。

3 当填充为 $p$ 步幅为 $s$ 时

在行和列之间插入 $s - 1$ 行或列。
将输入填充 $k - p - 1$ 。
将核矩阵上下，左右翻转。
之后正常做填充为0，步幅为1的卷积。

卷积和转置卷积作用后的矩阵尺寸变化

当输入的矩阵高宽为n，核大小为k，padding为p，stride为s。
转置卷积作用后的尺寸变化： $n^{1} = sn+k-2p-s$ 。如果想让高宽成倍增加，那么 $k = 2 p + s$ 。
卷积作用后的尺寸变化： $n^{1} =\lfloor \frac{n-k+2p+s}{s} \rfloor$ 。如果想让高宽成倍减少，那么 $k = 2 p + 1$ 。