Backpropagation Algorithm记录

最新推荐文章于 2023-08-11 03:00:58 发布

_Cade_

最新推荐文章于 2023-08-11 03:00:58 发布

阅读量823

点赞数

分类专栏：机器学习+数据挖掘文章标签：后向传播算法机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010510549/article/details/46573559

版权

机器学习+数据挖掘专栏收录该内容

6 篇文章 0 订阅

订阅专栏

http://deeplearning.stanford.edu/wiki/index.php/Backpropagation_Algorithm

UFLDL Tutorial　中没有给出推导公式，这里简单记录一下记法和简单推导过程

文章中用到的记法：　　　

$J(W,b; x,y) =\frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.$

这个是单个sample的cost function.

$\begin{align*} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\ &= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \end{align*}$

这个是最终的损失函数,其中 $h_{W,b}(x^{(i)})$ 是hypothesis， $\lambda$ 是regularizationparameter或 weight decay parameter.

$\begin{align*} W_{ij}^{(l)} \end{align*}$ 是第 $\begin{align*} l \end{align*}$ 层第 $\begin{align*} j \end{align*}$ 个节点，连接到 $\begin{align*} l+1 \end{align*}$ 第 $\begin{align*} i \end{align*}$ 个节点的权值, $\begin{align*} z_i^{(l)} \end{align*}$ 是第 $\begin{align*} l \end{align*}$ 层第 $\begin{align*} i \end{align*}$ 个节点的输入，也就是 $\begin{align*}\sum_{i=1}^{s_{l-1}}W_{ij}a^{l-1}_j\end{align*}$ ,当 $\begin{align*}l=1\end{align*}$ 时, $\begin{align*} a^0_j \end{align*}$ 就是 $\begin{align*}x_j\end{align*}$ ， $\begin{align*} a_i^{(l)} \end{align*}$ 是第 $\begin{align*} l \end{align*}$ 层第 $\begin{align*} i \end{align*}$ 个节点的输出

利用梯度下降,我们要求解

$\begin{align*} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \qquad \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align*}$

然后做权值更新

$\begin{align*} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align*}$

而

$\begin{align*} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b;x,y)=\frac{\partial J(W,b;x,y)}{\partial z_{i}^{(l+1)}}\frac{\partial z_{i}^{(l+1)}}{\partial W_{ij}^{(l)}} \end{align*}$

$\begin{align*} \frac{\partial J(W,b;x,y)}{\partial b_i^{(l)}}=\frac{\partial J(W,b;x,y)}{\partial z_i^{(l+1)}}\frac{\partial z_i^{(l+1)}}{\partial b_i^{(l)}}=\delta_i^{(l+1)} \end{align*}$

其中

$\begin{align*} \frac{\partial z_{i}^{(l+1)}}{\partial W_{ij}^{(l)}}=a_j^{(l)} \end{align*}$

令

$\begin{align*} \delta_i^{(l)}=\frac{\partial J(W,b;x,y)}{\partial z_{i}^{(l)}} \end{align*}$

那么就可以得到

$\begin{align*} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \end{align*}$

问题就在于求解 $\begin{align*} \delta_i^{(l)} \end{align*}$ ，分成两种情况，第一种是 $\begin{align*} l=n_l \end{align*}$ ，即处于输出层,第二种是其他的层,利用求导的链式法则有.

对于第一种情况

$\begin{align*} \delta_i^{(n_l)}&=\frac{\partial J(W,b;x,y)}{z_i^{(n_l)}}=\frac{\partial J(W,b;x,y)}{a_i^{(n_l)}}\frac{\partial a_i^{(l)}}{z_i^{(n_l)}}\\ &=\frac{\partial \frac{1}{2}\left\|y^{(i)} - a_i^{(l)} \right\|^2}{a_i^{(n_l)}}\frac{\partial a_i^{(l)}}{z_i^{(n_l)}}=-(y^{(i)} - a_i^{(l)})\cdot f^{\prime}(z_i^{(n_l)}) \end{align*}$

对于第二种情况

$\begin{align*} \delta_i^{(n_l)}&=\frac{\partial J(W,b;x,y)}{z_i^{(n_l)}}=\frac{\partial J(W,b;x,y)}{a_i^{(n_l)}}\frac{\partial a_i^{(l)}}{z_i^{(n_l)}}=\sum_{j=1}^{s_{l+1}}\frac{\partial J(W,b;x,y)}{z_j^{(l+1)}} \frac{\partial z_j^{(l+1)}}{\partial a_i^{(n_l)}} \frac{\partial a_i^{(l)}}{z_i^{(n_l)}}\\ &=\frac{\partial a_i^{(l)}}{z_i^{(n_l)}} \sum_{j=1}^{s_{l+1}}\delta_j^{(l+1)}W_{ji}^{(l)}=f^{\prime}(z_{i}^{(l)}) \sum_{j=1}^{s_{l+1}}\delta_j^{(l+1)}W_{ji}^{(l)} \end{align*}$

由此得到算法：

Perform a feedforward pass, computing the activations for layers $\begin{align*} L_2, L_3 \end{align*}$ , and so on up to the output layer $\begin{align*} L_{n_l} \end{align*}$ .
For each output unit i in layer $\begin{align*} n_l \end{align*}$ (the output layer), set $\begin{align*} \delta^{(n_l)}_i= \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align*}$
For $\begin{align*} l = n_l-1, n_l-2, n_l-3, \ldots, 2 \end{align*}$ :For each node i in layer l, set: $\begin{align*} \delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i) \end{align*}$
Compute the desired partial derivatives, which are given as: $\begin{align*} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\\frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align*}$

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。