卷积神经网络反向传播推导

最新推荐文章于 2023-03-28 14:53:14 发布

TonLP

最新推荐文章于 2023-03-28 14:53:14 发布

阅读量3.4k

点赞数 1

分类专栏：深度学习机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/dchen1993/article/details/53820821

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

深度学习

4 篇文章 0 订阅

订阅专栏

以TensorFlow的卷积神经网络为例

卷积-池-卷积-池-全连接-softmax
网络结构

前向传导

C1层：卷积神经网络的输入是28×28的矩阵 $A$ ，经过 $F_1$ 个5×5的卷积核 $K_i^1(i=1,2,...,F_1)$ 的卷积生成 $F_1$ 个24×24大小的feature maps：
$C_i^1=conv2(A, K_i^1, 'VALID')+b_i^1$
$u_i^1=C_i^1$
$a_i^1=f(u_i^1)$

S2层：窗口为2x2，输出为12x12的pool maps:
$S_i^2=\beta_i^2down(a_i^1)+b_i^2$
$u_i^2=S_i^2$
$a_i^2=f(u_i^2)$

C3层：卷积神经网络的输入是12x12的矩阵 $A$ ，经过 $F_1$ 个5×5的卷积核 $K_{ij}^3(i=1,2,...,F_1)$ 的卷积生成 $F_1$ 个8x8大小的feature maps：
$C_i^1=conv2(A, K_i^1, 'VALID')+b_i^1$
$u_i^1=C_i^1$
$a_i^1=f(u_i^1)$

S4层：窗口为2x2，输出为4x4的pool maps:
$S_i^4=\beta_i^4down(a_i^3)+b_i^4$
$u_i^4=S_i^4$
$a_i^4=f(u_i^4)$

全连接层：将 $a_i^4$ 展开，作为全连接层的输入

反向传播

全连接层

δ (l + 1) i = \partial J \partial z ( l + 1 ) i = \sum k = 1 S l + 2 \partial J \partial z ( l + 2 ) k \cdot \partial z ( l + 2 ) k \partial a ( l + 1 ) i \cdot \partial a ( l + 1 ) i \partial z ( l + 1 ) i = \sum k = 1 S (l + 2 δ (l + 2) l θ (l + 1) k, i \cdot g' (z (l + 1) i)

$\begin{align} \delta_i^{(l+1)}&={\partial J \over \partial z_{i}^{(l+1)}} \\ &=\sum_{k=1}^{S_{l+2}}{\partial J \over \partial z_k^{(l+2)}} \cdot {\partial z_k^{(l+2)} \over \partial a_i^{(l+1)}} \cdot {\partial a_i^{(l+1)} \over \partial z_i^{(l+1)}}\\ &=\sum_{k=1}^{S_{(l+2}}\delta_l^{(l+2)} \theta_{k,i}^{(l+1)} \cdot g'(z_i^{(l+1)}) \end{align}$

\partial J \partial θ l = δ l (a l - 1) T

${\partial J \over \partial \theta^l}=\delta^l(a^{l-1})^T$

\partial J \partial b l = δ l

${\partial J \over \partial b^l}=\delta^l$

卷积层
假设前一层 $l-1$ 为池化层，当前层 $l$ 为卷积层，后一层 $l+1$ 为池化层

δ (l) i = \partial J \partial u ( l ) i = [\partial J \partial u l + 1 i , ( j k ) \partial u l + 1 i , ( j k ) \partial a l i , ( j k ) \partial a l i , ( j k ) \partial u l i , ( j k )] j k = β (l + 1) i (f' (u (l) i) \circ u p (δ (l + 1) i))

$\delta_i^{(l)}={\partial J \over \partial u_i^{(l)}}=[{\partial J \over \partial u_{i,(jk)}^{l+1}} {\partial u_{i,(jk)}^{l+1} \over \partial a_{i,(jk)}^l}{\partial a_{i,(jk)}^l \over \partial u_{i,(jk)}^l}]_{jk}=\beta_i^{(l+1)}(f'(u_i^{(l)})\circ up(\delta_i^{(l+1)}))$

up运算为：

u p ([1324]) = ⎡ ⎣ ⎢ ⎢ ⎢ 1133113322442244 ⎤ ⎦ ⎥ ⎥ ⎥)

$up(\begin{bmatrix} 1 & 2\\ 3 & 4\\ \end{bmatrix})= \begin{bmatrix} 1 & 1 & 2 & 2\\ 1 & 1 & 2 & 2\\ 3 & 3& 4 & 4\\ 3 &3 & 4 & 4\\ \end{bmatrix})$

\partial J \partial b ( l ) i = \sum s, t (δ i) s t

${\partial J \over \partial b_i^{(l)}}=\sum_{s,t}(\delta_i)_{st}$

\partial J \partial K ( l ) i j = \sum s t (δ (l) i) s t (P (l - 1) j) s t

${\partial J \over \partial K_{ij}^{(l)}}=\sum_{st}(\delta_i^{(l)})_{st}(P_j^{(l-1)})_{st}$
其中，

(∗)st $(*)_{st}$ 遍历

∗ $*$ 的所有元素，

(P(l−1)j)st $(P_j^{(l-1)})_{st}$ 是

δ(l)i $\delta_i^{(l)}$ 所连接的

l−1 $l−1$ 层中

a(l−1)j $a_j^{(l-1)}$ 中相关的元素构成的矩阵。

池化层

δ (l) i = \sum j = 1 N l f' (u (l) i \circ c o n v 2 (δ (l + 1) j, K (l + 1) j i,' f u l l'))

$\begin{align} \delta_i^{(l)} &=\sum_{j=1}^{N_l}f'(u_i^{(l)}\circ conv2(\delta_j^{(l+1)},K_{ji}^{(l+1)},'full')) \end{align}$

\partial J \partial b ( l ) i = \sum s, t (δ (l) i) s t

${\partial J \over \partial b_i^{(l)}}=\sum_{s,t}(\delta_i^{(l)})_{st}$

\partial J \partial β ( l ) i = \sum s, t (δ (l) i \circ d (l - 1) i) s t

${\partial J \over \partial \beta_i^{(l)}}=\sum_{s,t}(\delta_i^{(l)}\circ d_i^{(l-1)})_{st}$
其中，

(∗)st $(*)_{st}$ 遍历

∗ $*$ 的所有元素，

d(l−1)i=down(a(l−1)i) $d_i^{(l-1)}=down(a_i^{(l-1)})$ 。

解释一下为什么 $\delta_i^{(l)}$ 公式中有conv2:

\partial J \partial u l i , ( j k ) = \sum m r e l a t e d \partial J \partial u l + 1 m \partial u l + 1 m \partial a l i , ( j k ) \partial a l i , ( j k ) \partial u l i , ( j k )

$\begin{align} {\partial J \over \partial u_{i,(jk)}^l} &=\sum_m^{related}{\partial J \over \partial u_{m}^{l+1}}{\partial u_{m}^{l+1} \over \partial a_{i,(jk)}^l}{\partial a_{i,(jk)}^l \over \partial u_{i,(jk)}^l} \end{align}$
其中与

ali,(jk) $a_{i,(jk)}^l$ 相关联的feature maps中的

δ(l+1) $\delta^{(l+1)}$ 和卷积核参数

K(l+1) $K^{(l+1)}$ 可以由卷积操作完成。例子参考 http://www.cnblogs.com/tornadomeet/p/3468450.html 最好手算一遍体会。

Reference

http://www.cnblogs.com/tornadomeet/p/3468450.html
http://tech.youmi.net/2016/07/163347168.html?utm_source=tuicool&utm_medium=referral

TonLP

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络反向传播推导

以TensorFlow的卷积神经网络为例卷积-池-卷积-池-全连接-softmax 前向传导C1层：卷积神经网络的输入是28×28的矩阵AA，经过F1F_1个5×5的卷积核K1i(i=1,2,...,F1)K_i^1(i=1,2,...,F_1)的卷积生成F1F_1个24×24大小的feature maps： C1i=conv2(A,K1i,′VALID′)+b1iC_i^1=conv2(A,
复制链接

扫一扫