『Transformer』为什么1*1卷积可以替代全连接层？

最新推荐文章于 2025-05-20 18:44:14 发布

Hoshino Ren

最新推荐文章于 2025-05-20 18:44:14 发布

阅读量6.2k

点赞数 9

分类专栏：一定不可忘记的深度学习物语文章标签：深度学习自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_41300383/article/details/123925063

版权

一定不可忘记的深度学习物语专栏收录该内容

4 篇文章

订阅专栏

为什么1*1卷积可以替代全连接层？

起源

来自Transformer

事情起源于同学的一个疑惑，他在阅读Transformer论文时，看到作者在前馈神经网络部分写有这么一句话：

Another way of describing this is as two convolutions with kernel size 1.

于是他向我问道“为什么全连接层可以用1*1卷积层代替呢？”

对卷积的理解尚不深刻的我被问住了，所以我立马开始搜索资料以解决这一问题。

下面将此问题相关的内容分析整理出来，以供复习。

解决

按照我之前的理解，对于一张 $5 * 5$ 的原始图像进行 $1 * 1$ 的卷积操作，就是对原图像的每个元素乘以一个卷积核参数得到 $5 * 5$ 的特征图，那这不就是直接逐元素乘以常数嘛喂！怎么可能代替全连接呢？！

之所以会有这个误会，是因为我们平常所说的 $1 * 1$ 卷积其实省略了一个重要的东西，实际上应为 $1 * 1 * 输入通道数$ 卷积。

更广泛来说，当我们对K个通道的输入进行 $n * n$ 卷积时，我们需要一个shape为 $[n, n, k]$ 的kernel。

Kernel示意图

举个例子，对于一张 $1 * 1$ 的图像，它拥有RGB三个通道，我们想要执行 $1 * 1$ 的卷积操作，那么我们kernel的shape应为 $[1, 1, 3]$ 。

假设卷积核 $kernel = (k_1, k_2, k_3)$ ，同一空间位置不同通道的输入从上到下依次是 $x_1, x_2, x_3$ ，那么输出特征图上对应位置应为 $k_1x_1 + k_2x_2 + k_3x_3$ 。

所以说， $1 * 1$ 卷积操作是在每个像素位置上，不同feature channels的线性叠加，其目的是保留原有图像平面结构的基础上，调整通道数(即depth)，从而完成升维或降维的功能。

1*1卷积不同通道的线性叠加

理解了这一点之后，就可以明白为什么 $1 * 1$ 卷积操作等价于一个全连接层了。

依旧举例说明，假如现在有一层全连接网络，输入层维度为3，输出层维度为2，具体参数如下：

$\begin{pmatrix} 0 & 1 & 1 \\ 2 & 3 & 5 \\ \end{pmatrix} \in R^{2 \times 3}$

$\begin{pmatrix} 8 \\ 13 \\ \end{pmatrix} \in R^2$

则可知网络 $ReLU(W\cdot x + b)$ ，其中 $\in R^3$ 。

此时我们将维度为3的输入展开为 $[1, 1, 3]$ ，同样地将维度为2的输出展开为 $[1, 1, 2]$ ，从卷积的角度可以看成是输入是空间维度为 $1 * 1$ 的3个通道的特征图，输出是空间维度为 $1 * 1$ 的2个通道的特征图。

对于空间维度 $1 * 1$ 的3通道输入，我们需要用 $[1, 1, 3]$ 的kernel，计算得到 $1 * 1$ 的输出特征图，那么使用两个这样的kernel便得到了两个输出通道，即 $[1, 1, 2]$ 。

假设每一个kernel的卷积核参数如下所示：

$K_1 = (0 \ \ 1 \ \ 1 )\\ K_2 = (2 \ \ 3 \ \ 5)$

可以在 $1 * 1$ 卷积操作的基础上添加ReLU函数，那么有如下公式：

$ReLU\left(\begin{pmatrix} K_1\cdot x \\ K_2\cdot x \\ \end{pmatrix} + \begin{pmatrix} b_1 \\ b_ 2 \end{pmatrix}\right)$ ，其中 $\in R^3$ 。

此时 $1 * 1$ 卷积操作的公式便与全连接层一致，这就是为什么 $1 * 1$ 卷积操作可以等价于一个全连接层。

最后回到Transformer上去，如何用两个 $1 * 1$ 卷积代替MLP呢？假设 $d_{model}=512$ ，序列长度为 $n$ ，那么可以将每个token看作 $[1, 1, 512]$ ，并将其竖起来，使用shape为 $[1, 1, 512]$ 的kernel进行卷积，并使用 $2048$ 个这样的kernel，便可得到 $[n, 2048]$ 维度的张量，维度扩大四倍，等价于第一层全连接。