HBU_神经网络与深度学习作业7 卷积神经网络

ZodiAc7

已于 2023-12-31 22:50:52 修改

阅读量287

点赞数 1

文章标签： python 深度学习 cnn

于 2022-10-30 19:29:56 首次发布

原文链接：https://blog.csdn.net/qq_38975453/article/details/127181421

版权

写在前面的一些内容

本次习题来源于神经网络与深度学习 pdf电子书的第142页（对应纸质版第127页）的习题5-2、5-3、5-4和5-7，具体内容详见 NNDL 作业7 。
水平有限，难免有误，如有错漏之处敬请指正。

习题5-2

证明宽卷积具有交换性，即公式 $rot180(\boldsymbol{W}) \tilde{\otimes} \boldsymbol{X} = rot180(\boldsymbol{X}) \tilde{\otimes} \boldsymbol{W}$

首先由宽卷积定义可得：
$y=rot180(\boldsymbol{W}) \tilde{\otimes} \boldsymbol{X} = rot180(\boldsymbol{W})\otimes\tilde{\boldsymbol{X}}$ 由卷积的交换律可得：
$y=rot180(\boldsymbol{W}) \otimes \tilde{\boldsymbol{X}} = \tilde{\boldsymbol{X}} \otimes rot180(\boldsymbol{W})$ 那么，在计算得到的特征图矩阵中，其中一个通道的其中一个值为：
$y_{ij} = \tilde{\boldsymbol{X}} \otimes rot180(\boldsymbol{W}) = \sum_{u=1}^U \sum_{v=1}^V x_{i-1+u,j-1+v} \cdot w_{u,v}$ 其中 $U, V$ 为 $\boldsymbol{W}$ 的行数和列数。（翻转180°后矩阵长宽不变）

同理可得 $y'_{ij}=rot180(\boldsymbol{X}) \otimes \tilde{\boldsymbol{W}} = \sum_{a=1}^A \sum_{b=1}^B x'_{a,b} \cdot w'_{i-1+a,j-1+b}$ 其中 $A, B$ 为 $\boldsymbol{X}$ 的行数和列数。

要使题给等式成立，则 $y_{ij}=y'_{ij}$
即 $\tilde{\boldsymbol{X}}$ 的行数为，列数为

在上列两个式子中，参数满足：
$\\ b=j-v+1$ 则 $\\ v=y-j+1$ 即
$y_{ij}=rot180(\boldsymbol{X}) \otimes \tilde{\boldsymbol{W}} = \sum_{a=i-u+1}^{U+i-1} \sum_{b=j-v+1}^{V+j-1} x_{a,b} \cdot w_{a-i+1,b-j+1}$ 根据宽卷积的性质，宽卷积仅是进行了X的零填充，可以发现该等式仍然成立，故宽卷积也符合可交换性。

习题5-3

分析卷积神经网络中用 $1\times1$ 的卷积核的作用。

1. 升降维

通过控制卷积核的通道数来对特征图的通道数进行控制，以此实现升降维。

2. 增加网络深度

保证特征图的尺寸相同的情况下用 $1\times1$ 卷积核可以多卷积一次，这样能再应用一次卷积函数，增加非线性。

习题5-4

对于一个输入为 $100 \times 100 \times 256$ 的特征映射组，使用 $\times 3$ 的卷积核，输出为 $100 \times 100 \times 256$ 的特征映射组的卷积层，求其时间和空间复杂度。
如果引入一个 $\times 1$ 卷积核，先得到 $100 \times 100 \times 64$ 的特征映射，再进行 $\times 3$ 的卷积，得到 $100 \times 100 \times 256$ 的特征映射组，求其时间和空间复杂度。

单个卷积层时间复杂度的计算
$\bold{Time} \sim O(M^2 \cdot K^2 \cdot C_{in} \cdot C_{out})$ $M$ ：每个卷积核输出特征图的边长
$K$ ：每个卷积核的边长
$C_l$ ：每个卷积核的通道数，即输入通道数，即上一层的输出通道数
$C_{out}$ ：本卷积层具有的卷积核个数，即输出通道数

卷积神经网络整体时间复杂度的计算
$\bold{Time} \sim O(\sum_{l=1}^D M^2_l \cdot K^2_l \cdot C_{l-1} \cdot C_l)$ $D$ ：神经网络所具有的卷积层数，即网络的深度。
$l$ ：神经网络的第 $l$ 个卷积层
$C_l$ ：神经网络第 $l$ 个卷积层的输出通道数 $C_{out}$ ，即该层的卷积核个数
$C_{out}$ ：对于第 $l$ 个卷积层而言，其输入通道数 $C_{in}$ 就是第 $(l - 1)$ 个卷积层的输出通道数

空间复杂度计算

包括两个部分：总参数量和各层输出特征图
$\bold{Space} \sim O(\sum_{l=1}^D K^2_l \cdot C_{l-1} \cdot C_l + \sum_{l=1}^D M^2 \cdot C_l)$ 参数量( $\sum_{l=1}^D K^2_l \cdot C_{l-1} \cdot C_l$ )：模型所有带参数的层的权重参数总量（即模型体积）
特征图( $\sum_{l=1}^D M^2 \cdot C_l$ )：模型再实时运行过程中每层所计算出的输出特征图大小

根据上述内容可以计算得出时间复杂度和空间复杂度。

①时间复杂度： $256×100×100×256×3×3=5\ 898\ 240\ 000$

空间复杂度： $256×100×100=2\ 560\ 000$

②时间复杂度： $64×100×100×256+256×100×100×64×3×3=1\ 638\ 400\ 000$

空间复杂度： $64×100×100+256×100×100=3\ 200\ 000$

习题5-7

忽略激活函数，分析卷积网络中卷积层的前向计算和反向传播是一种转置关系。

卷积层的前向计算和反向传播的公式如下：
$\delta^ {(l,d)} = f_l'(\boldsymbol{Z}^{(l,d)}) \odot P \sum^P_{P=1} (rot180(\boldsymbol{W}^{(l+1,p,d)}) \otimes \delta^{(l+1,p)})$ 则：
第 $l$ 层的净输入为 $z^{(l+1)}=W^{(l+1)}z^{(l)}$ ，反向传播的误差项为 $\delta^{(l)}=(W^{(l+1)})^T\delta^{(l+1)}$
第 $l + 1$ 层的净输入为 $z^{(l+1)}=(W^{(l+1)})^Tz^{(l+1)}$ ，反向传播的误差项为 $\delta^{(l+1)}=W^{(l+1)}\delta^{(l)}$
显然，忽略激活函数下前向计算和反向传播是一种转置关系。

EX

代码实现反向传播算子。

在前面实验里的卷积算子塞一个反向传播的函数就行了。

def backward(self, grad_sum):
        grad_sum = grad_sum.transpose(1, 2, 3, 0).reshape(self.out_channels, -1)
        grad_w = grad_sum.dot(self.X_col.T).reshape(self.W.shape)
        grad_bias = np.sum(_grad_sum, axis=1, keepdims=True)

        self.W = self.W_opt.update(self.W, grad_w)
        self.bias = self.bias_opt.update(self.bias, grad_bias)

        grad_sum = self.W_col.T.dot(grad_sum)
        grad_sum = column2image(grad_sum,
                                self._input.shape,
                                self.kernel_size,
                                stride=self.stride,
                                output_shape=self.padding)

        return grad_sum