正向传播、反向传播推导总结

最新推荐文章于 2022-10-01 15:51:43 发布

周博u010083327

最新推荐文章于 2022-10-01 15:51:43 发布

阅读量2.1k

点赞数 1

分类专栏：深度学习文章标签：深度学习正向传播反向传播

本文链接：https://blog.csdn.net/u010083327/article/details/93591790

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在看《动手学深度学习》这本书，收获很大，在此想总结一下，方便日后回顾。也推荐大家去看看这本书。

一、正向传播：(这里不考虑偏差项b)

输入层到隐藏层中间变量：

$z=W^{(1)}x$

隐藏层：

$h=\phi(z)$

输出层：

$o=W^{(2)}h$

损失项：

$L=\ell (o, y)$

$L_{2}$ 正则化项：

$s=\frac{\lambda }{2}(\parallel W^{(1)}\parallel _{F}^{2}+\parallel W^{(2)}\parallel _{F}^{2})$

目标函数：

J=L+s

正向传播计算图：

二、反向传播：

首先确定目标，求：

$\frac{\partial J}{\partial W^{(1)}}$ , $\frac{\partial J}{\partial W^{(2)}}$

先计算最靠近输出层模型参数的梯度：

$\begin{aligned} \frac{\partial J}{\partial W^{(2)}}& =prod(\frac{\partial J}{\partial o},\frac{\partial o}{\partial W^{(2)}})+prod(\frac{\partial J}{\partial s},\frac{\partial s}{\partial W^{(2)}}) \\&=\frac{\partial J}{\partial o}h^{T}+\lambda W^{(2)}\\& =prod(\frac{\partial J}{\partial L},\frac{\partial L}{\partial o})h^{T}+\lambda W^{(2)}\\& =\frac{\partial L}{\partial o}h^{T}+\lambda W^{(2)} \end{aligned}$

再计算靠近输入层模型参数的梯度：

$\begin{aligned} \frac{\partial J}{\partial W^{(1)}}& =prod(\frac{\partial J}{\partial z},\frac{\partial z}{\partial W^{(1)}})+prod(\frac{\partial J}{\partial s},\frac{\partial s}{\partial W^{(1)}})\\& =\frac{\partial J}{\partial z}x^{T}+\lambda W^{(1)}\\& =prod(\frac{\partial J}{\partial h},\frac{\partial h}{\partial z})x^{T}+\lambda W^{(1)}\\& =\frac{\partial J}{\partial h}\odot {\phi }'(z)x^{T}+\lambda W^{(1)}\\& =prod(\frac{\partial J}{\partial o},\frac{\partial o}{\partial h})\odot {\phi }'(z)x^{T}+\lambda W^{(1)}\\& =W^{(2)^{T}}\frac{\partial J}{\partial o}\odot {\phi }'(z)x^{T}+\lambda W^{(1)}\\& =W^{(2)^{T}}prod(\frac{\partial J}{\partial L},\frac{\partial L}{\partial o})\odot {\phi }'(z)x^{T}+\lambda W^{(1)}\\& =W^{(2)^{T}}\frac{\partial L}{\partial o}\odot {\phi }'(z)x^{T}+\lambda W^{(1)} \end{aligned}$

其中： $\frac{\partial J}{\partial L}=1,\frac{\partial J}{\partial s}=1,\frac{\partial s}{\partial W^{(1)}}=\lambda W^{(1)},\frac{\partial s}{\partial W^{(2)}}=\lambda W^{(2)}$