关于反向传播算法中几个公式的推导

最新推荐文章于 2023-03-15 09:58:40 发布

空字符（公众号：月来客栈）

最新推荐文章于 2023-03-15 09:58:40 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/the_lastest/article/details/78034714

版权

** 参考自资料，[戳此处](http://deeplearning.stanford.edu/wiki/index.php/%E5%8F%8D%E5%90%91%E4%BC%A0%E5%AF%BC%E7%AE%97%E6%B3%95)**

$J(W,b;x,y)=\frac{1}{2}||h_{W,b}(x)-y||^2$

符号说明：
$\begin{aligned} l&=神经网络的某一层\newline S_l&=第l层神经元的数目\newline L&=神经网络的总层数 \end{aligned}$
如下图中：
$S_1=2;S_L=S_3=2$
这里写图片描述

推导之前先列出几个用到的等式：

$\begin{aligned} z^l_\color{red}{j}&=\sum_{k=1}^{S_{l-1}}f(z_k^{l-1})\cdot W^{l-1}_{\color{red}{j}k}\\[2ex] \newline &=f(z_1^{l-1})\cdot W^{l-1}_{j1}+f(z_2^{l-1})\cdot W^{l-1}_{j2}+\cdots+f(z_{S_{l-1}}^{l-1})\cdot W^{l-1}_{jS_{l-1}}\cdots\cdots\cdots(1) \\[2ex] \newline &=a_1^{l-1}\cdot W^{l-1}_{j1}+a_2^{l-1}\cdot W^{l-1}_{j2}+\cdots+a_{S_{l-1}}^{l-1}\cdot W^{l-1}_{jS_{l-1}}\cdots\cdots\cdots\cdots\cdots(2) \end{aligned}$

例如：

$\begin{aligned} z^2_1=\sum_{k=1}^{3}f(z_k^{1})\cdot W^{1}_{\color{red}{1}k}=a^1_1\cdot W^1_{11}+a^1_2\cdot W^1_{12}+a^1_3\cdot W^1_{13} \end{aligned}$

$\begin{aligned} h(x_i)=a^L_i=f(z^L_i);z^l_i=\sum_{j=1}^{S_{(l-1)}}W^{l-1}_{ij}\cdot a^{l-1}_j\cdots\cdots\cdots\cdots(3) \end{aligned}$

定义： $\delta^l_i=\frac{\partial J}{\partial z^l_i}$ ；这只是定义的一个称之为“残差”的中间变量

推导：

公式一： $\frac{\partial J}{\partial W^l_{ij}}=\delta^{l+1}_i\cdot a^l_j$

$\begin{aligned} \frac{\partial J}{\partial W^l_{ij}}&=\sum_{k=1}^{S_{l+1}}\frac{\partial J}{\partial z^{l+1}_k}\cdot\frac{\partial z^{l+1}_k}{\partial W^l_{ij}}\\ \\&=\frac{\partial J}{\partial z^{l+1}_i}\cdot\frac{\partial z^{l+1}_i}{\partial W^l_{ij}}\cdots\cdots其中只有当k等于i时，\frac{\partial z^{l+1}_i}{\partial W^l_{ij}}才不为零\\ \newline &=\delta^{l+1}_i\cdot\frac{\partial z^{l+1}_i}{\partial W^l_{ij}} \\ \newline &=\delta^{l+1}_i\cdot\frac{\partial}{\partial W^l_{ij}} \color{red}{[a^l_1W^l_{i1}+a^l_2W^l_{i2}+\cdots+a^l_1W^l_{iS_{l}}]}\cdots\cdots红色部分由(2)可知 \\ \newline &=\delta^{l+1}_i\cdot\color{red}{a^l_j}\cdots\cdots观察可知，当a^l_？W^l_{ij}等于上面红色部分中的某一项时，问号处刚好为j,注意观察角标 \\ \\ \end{aligned}$

最低0.47元/天解锁文章

空字符（公众号：月来客栈）

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
关于反向传播算法中几个公式的推导

参考自资料，戳此处J(W,b;x,y)=12||hW,b(x)−y||2J(W,b;x,y)=\frac{1}{2}||h_{W,b}(x)-y||^2符号说明：lSlL=神经网络的某一层=第l层神经元的数目=神经网络的总层数\begin{align*}l&amp;=神经网络的某一层\newlineS_l&amp;=第l层神经元的数目\newlineL&amp;=神经网络的总层数\end{align*} 如下图中
复制链接

扫一扫