图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现

最新推荐文章于 2024-04-27 16:06:17 发布

l_____r

最新推荐文章于 2024-04-27 16:06:17 发布

阅读量2.8k

点赞数 4

分类专栏：深度学习文章标签：深度学习 CNN 反向传播 caffe

本文链接：https://blog.csdn.net/lr87v5/article/details/80082344

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.全连接层反向传播

设 $C$ 为loss
全连接层输入：(bottom_data) $a$
全连接层输出：(top_data) $z$
假设 $a$ 维度K_， $z$ 维度N_，则权值矩阵维度为N_行*K_列，batchsize=M_
全连接层每个输出 ${z_i} = b + \sum\limits_j {{w_{ij}}{a_j}}$

1.1bottom_diff计算：

对bottom_data求导： $\frac{{\partial C}}{{\partial {a_j}}} = \sum\limits_i {\frac{{\partial C}}{{\partial {z_i}}} \cdot \frac{{\partial {z_i}}}{{{a_j}}}} = \sum\limits_i {{z_i}^\prime } {w_{ij}}$ （batchsize=1时）
当batchsize不为1时，需要分别获得各个样本下的结果，组成矩阵：
bottom_diff计算矩阵实现示意图
caffe实现：

1.2weight_diff计算：

对weight求导： $\frac{{\partial C}}{{\partial {w_{ij}}}} = \frac{{\partial C}}{{\partial {z_i}}} \cdot \frac{{\partial {z_i}}}{{{w_{ij}}}} = {z_i}^\prime {a_j}$
当batchsize不为1时，需要将各个样本下的结果进行求和：
weight_diff计算矩阵实现示意图
caffe实现：

1.3bias_diff计算：

对bias进行求导： $\frac{{\partial C}}{{\partial b}} = \sum\limits_i {\frac{{\partial C}}{{\partial {z_i}}} \cdot \frac{{\partial {z_i}}}{b}} = \sum\limits_i {{z_i}^\prime }$ （batchsize=1时）
当batchsize不为1时，需要分别获得各个样本下的结果，组成向量：
bias_diff计算矩阵实现示意图
caffe实现：

2.Pooling层反向传播

2.1 Max Pooling:

MaxPooling前向传播示意图
首先，在前向传播时，在输出新的feature map的同时，还要记录每个输出点对应于前一层feature map中的位置，放入mask或者top_mask中（top_mask是指，该mask存放在top_data里当作输出的一部分）
max pooling 前向传播caffe实现：

在反向传播时：将top_diff按照记录下来的index返回到输入层中，即只对前向传播时选中的一些位置进行误差传播，如下图：
MaxPooling反向传播示意图
max pooling 反向传播caffe实现：

2.2 Average Pooling

前向传播较简单，block内数值的平均值作为输出，每个输出值对应固定的输入block，如图：
AveragePooling前向传播示意图
反向传播，将输出层各个位置的梯度，平均分配到其对应的输入block中，如图：
AveragePooling反向传播示意图
average pooling 反向传播caffe实现：

3.Relu层反向传播

由Relu定义可得其导数：

f (x) = {x α x x > 0 x ⩽ 0, f' (x) = {1 α x > 0 x ⩽ 0

$f(x) = \left\{ {\begin{array}{*{20}{c}} x&{x > 0} \\ {\alpha x}&{x \leqslant 0} \end{array}} \right.,f'(x) = \left\{ {\begin{array}{*{20}{c}} 1&{x > 0} \\ \alpha &{x \leqslant 0} \end{array}} \right.$
其中

α α $\alpha$ 默认为0
则Relu反向传播只需判断原始输入数据是否大于0，若大于0则将top_diff直接传到前层，否则将top_diff乘上

α α $\alpha$ 传到前层，如图：
Relu层前向和反向传播示意图

Relu层反向传播caffe实现：

l_____r

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现

1.全连接层反向传播设CCC为loss 全连接层输入：(bottom_data) aaa 全连接层输出：(top_data) zzz 假设 aaa维度K_， zzz维度N_，则权值矩阵维度为N_行*K_列，batchsize=M_ 全连接层每个输出zi=b+∑jwijajzi=b+∑jwijaj{z_i} = b + \sum\limits_j {{w_{ij}}{a_j}} ...
复制链接

扫一扫