NNDL 作业7：第五章课后题（1×1 卷积核 | CNN BP）

最新推荐文章于 2024-02-12 23:09:17 发布

HBU_fangerfang

最新推荐文章于 2024-02-12 23:09:17 发布

阅读量1.3k

点赞数 3

分类专栏：神经网络与深度学习文章标签： cnn 深度学习神经网络

本文链接：https://blog.csdn.net/qq_33573422/article/details/127535228

版权

神经网络与深度学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

习题5-2 证明宽卷积具有交换性。

图像 X 和卷积核 W 的宽卷积定义为： $W \widetilde{\otimes}X \stackrel{\mathrm{\triangle}}{=}W\otimes \widetilde{X}$

全填充图像： $\widetilde{X}\in \mathbb{R}^{(M+2U-2)\times(N+2V-2)}$

图像 X 和卷积核 W 有固定长度时，它们的宽卷积具有交换性：

$rot180(W)\widetilde{\otimes }X=rot180(X)\widetilde{\otimes }W$

$rot180(W){\otimes }\widetilde{X}=rot180(X){\otimes }\widetilde{W}$

证明：

首先给定一个二维图像： $X\in \mathbb{R}^{M\times N}$ 和一个二维卷积核 $W\in \mathbb{R}^{U\times V}$

因为要对图像X进行卷积，但是上面定义中提到了是宽卷积，所以先对他进行填充，两端各补U-1和V-1个零，得到全填充图像

$X\in \mathbb{R}^{(M+2U-2)\times (N+2V-2)}$

为了方便我们先设一下

$W=\begin{pmatrix} a_1&b_1\\ c_1&d_1\\ \end{pmatrix}$

和

$X=\begin{pmatrix} a_2&b_2&c_2\\ d_2&e_2&f_2\\ g_2&h_2&i_2\\ \end{pmatrix}$

因为我们要证明交换性，所以要对W也填充，就是W两端各补M-1和N-1个零，得到全填充图像

$W\in \mathbb{R}^{(U+2M-1)\times (V+2N-1)}$

从我们设的X和W很容易可以看出来U=N=2，M=N=3。

那么填充完的

$\widetilde{W}=\begin{pmatrix} 0&0&0&0&0&0\\ 0&0&0&0&0&0\\ 0&0&a_1&b_1&0&0\\ 0&0&c_1&d_1&0&0\\ 0&0&0&0&0&0\\ 0&0&0&0&0&0\\ \end{pmatrix}$

$\widetilde{X}=\begin{pmatrix} 0&0&0&0&0\\ 0&a_2&b_2&c_2&0\\ 0&d_2&e_2&f_2&0\\ 0&g_2&h_2&i_2&0\\ 0&0&0&0&0\\ \end{pmatrix}$

然后把W和X旋转180°

$rot180(W)=\begin{pmatrix} d_1&c_1\\ b_1&a_1\\ \end{pmatrix}$

$rot180(X)=\begin{pmatrix} i_2&h_2&g_2\\ f_2&e_2&d_2\\ c_2&b_2&a_2\\ \end{pmatrix}$

然后就方便计算

$rot180(W)\otimes \widetilde{X}=\begin{pmatrix} d_1&c_1\\ b_1&a_1\\ \end{pmatrix}\otimes \begin{pmatrix} 0&0&0&0&0\\ 0&a_2&b_2&c_2&0\\ 0&d_2&e_2&f_2&0\\ 0&g_2&h_2&i_2&0\\ 0&0&0&0&0\\ \end{pmatrix}=$

$\begin{pmatrix} a_1a_2&b_1a_2+a_1b_2&b_1b_2+a_1c_2&b_1c_2\\ c_1a_2+a_1d_2&d_1a_2+c_1b_2+b_1d_2+a_1e_2&d_1b_2+c_1c_2+b_1e_2+a_1f_2&d_1c_2+b_1f_2\\ c_1d_2+a_1g_2&d_1d_2+c_1e_2+b_1g_2+a_1h_2&d_1e_2+c_1f_2+b_1h_2+a_1i_2&d_1f_2+b_1i_2\\ c_1g_2&d_1g_2+c_1h_2&d_1h_2+c_1i_2&d_1i_2 \end{pmatrix}$

$rot180(X)\otimes \widetilde{W}=\begin{pmatrix} i_2&h_2&g_2\\ f_2&e_2&d_2\\ c_2&b_2&a_2\\ \end{pmatrix}\otimes \begin{pmatrix} 0&0&0&0&0&0\\ 0&0&0&0&0&0\\ 0&0&a_1&b_1&0&0\\ 0&0&c_1&d_1&0&0\\ 0&0&0&0&0&0\\ 0&0&0&0&0&0\\ \end{pmatrix}=$

可以看出来我们得到的结果是一样的。所以交换律成立。

习题5-3 分析卷积神经网络中用1×1的卷积核的作用。

1、升降维

1x1卷积核可以通过控制卷积核数量实现降维或升维。

从卷积层流程图中可以清楚的看到卷积后的特征图通道数与卷积核的个数是相同的。所以，如果想要升维或降维，只需要通过修改卷积核的个数即可。

2、跨通道信息交互（channal 的变换）

使用1x 1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3x 3，64channels的卷积核后面添加一个1x 1，28channels的卷积核，就变成了3x 3，28channels的卷积核，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互。

3、增加网络深度（增加非线性）

每使用 1x1卷积核，及增加一层卷积层，所以网络深度得以增加。而使用 1x1卷积核后，可以保持特征图大小与输入尺寸相同，卷积层卷积过程会包含一个激活函数，从而增加了非线性。

在输入尺寸不发生改变的情况下而增加了非线性，所以会增加整个网络的表达能力。

习题5-4 对于一个输入为100×100×256的特征映射组，使用3×3的卷积核，输出为100×100×256的特征映射组的卷积层，求其时间和空间复杂度。如果引入一个1×1的卷积核，先得到100×100×64的特征映射，再进行3×3的卷积，得到100×100×256的特征映射组，求其时间和空间复杂度。

（1）

时间复杂度：256×100×100×256×3×3 = 5,898,240,000

空间复杂度：256×100×100 = 2,560,000

（2）

时间复杂度：64×100×100×256 + 256×100×100×64×3×3 = 1,638,400,000

空间复杂度：64×100×100 + 256×100×100 = 3,200,000

习题5-7 忽略激活函数，分析卷积网络中卷积层的前向计算和反向传播是一种转置关系。

以一个3×3的卷积核为例，输入为X输出为Y

$X=\begin{pmatrix} x_1&x_2&x_3&x_4\\ x_5&x_6&x_7&x_8\\ x_9&x_{10}&x_{11}&x_{12}\\ x_{13}&x_{14}&x_{15}&x_{16}\\ \end{pmatrix}$ $W=\begin{pmatrix} w_{00}&w_{01}&w_{02}\\ w_{10}&w_{11}&w_{12}\\ w_{20}&w_{21}&w_{22}\\ \end{pmatrix}$ $Y=\begin{pmatrix} y_1&y_2\\ y_3&y_4\\ \end{pmatrix}$

将4×4的输入特征展开为16×1的矩阵，y展开为4×1的矩阵，将卷积计算转化为矩阵相乘

$Y_{4\times 1}=C_{4\times 16}\times X_{16\times 1}$

$Y=\begin{bmatrix} y_1\\ y_2\\ y_3\\ y_4\\ \end{bmatrix}$ $C=\begin{bmatrix} w_{20}&w_{01}&w_{02}&0&w_{10}&w_{11}&w_{12}&...\\ 0&w_{20}&w_{01}&w_{02}&0&w_{10}&w_{11}&...\\ 0&0&w_{20}&w_{01}&w_{02}&0&w_{10}&...\\ 0&0&0&w_{20}&w_{01}&w_{02}&0&...\\ \end{bmatrix}$ $X=\begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_4\\ \end{bmatrix}$

由 $\frac{\partial loss}{\partial x_j}=\sum_{i}^{4}\frac{\partial loss}{\partial y_i}\cdot \frac{\partial y_i}{\partial x_j}$ 而 $y_i=\sum_{i=1}^{16}c_{ij}x_{j}$ 即 $\frac{\partial y_i}{\partial x_j}=c_{ij}$

所以 $\frac{\partial loss}{\partial x}=\begin{bmatrix} \frac{\partial loss}{\partial x_1}\\ \frac{\partial loss}{\partial x_2}\\ \vdots \\ \frac{\partial loss}{\partial x_16}\\ \end{bmatrix}=\begin{bmatrix} c_1^T\\ c_2^T\\ \vdots \\ c_{16}^T\\ \end{bmatrix}\frac{\partial loss}{\partial Y}=C^T\frac{\partial loss}{\partial Y}$