神经网络笔记 - 反向传播(BackPropagation)

最新推荐文章于 2022-03-11 17:08:47 发布

volvet

最新推荐文章于 2022-03-11 17:08:47 发布

阅读量715

点赞数 1

分类专栏：机器学习文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/volvet/article/details/71322304

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

神经网络的数学描述:

这里写图片描述

$w_{jk}^l$ 表示 $l-1$ 层的第 $k$ 个神经元到 $l$ 层的第 $j$ 个神经元输入的权重.
$b_j^l$ 表示 $l$ 层的第 $j$ 个神经元的偏移
$a_j^l$ 表示 $l$ 层的第 $j$ 个神经元的输出
所以:

a l j = σ (\sum k w l j k a l - 1 k + b l j)

$a_j^l=\sigma(\sum_kw_{jk}^{l}a_k^{l-1} + b_j^l)$
也可以用更简洁的描述:

a l = σ (w l a l - 1 + b l)

$a^l=\sigma(w^la^{l-1}+b^l)$
令:

z l = z l j = w l a l - 1 + b l

$z^l = z_{j}^l=w^la^{l-1}+b^l$
则

zl $z^l$ 可以视为第

l $l$ 层神经元的带权重和偏移的输入.

代价函数(Cost Function)

代价函数的定义如下:

C = 1 2 n \sum x | | y (x) - a L (x) | | 2

$C = \frac{1}{2n}\sum_x||y(x)-a^L(x)||^2$
这里:

n $n$ 是训练样本的个数,

y(x) $y(x)$ 是期望的输出,

L $L$ 是神经网络的总层数,

aL=aL(x) $a^L=a^L(x)$ 是神经网络当输入样本为

x $x$ 时的输出.

Hadamard 积

Hadmard积的定义如下:
$这里写图片描述$

反向传播的基本概念

定义错误 $\delta_j^l$ :

δ l j = \partial C \partial z l j

$\delta_j^l=\frac{\partial C}{\partial z_j^l}$
则:

δ L j = \sum k \partial C \partial a L k \partial a L k \partial z L j

$\delta_j^L=\sum_k\frac{\partial C}{\partial a_k^L}\frac{\partial a_k^L}{\partial z_j^L}$
因为

aLk $a_k^L$ 是第

L $L$ 层的第

k $k$ 个神经元，只有当

j=k $j = k$ 时，跟

zLj $z_j^L$ 有关，所以

\partial a L k \partial z L j = 0, if k \neq j

$\frac{\partial a_k^L}{\partial z_j^L} = 0, \text{if} \ \ \ k \neq j$
于是:

δ L j = \partial C \partial a L j \partial a L j \partial z L j

$\delta_j^L = \frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}$
所以, 反向传播公式一(BP1)：

δ L j = \partial C \partial a L j σ' (z L j)

$\delta_j^L = \frac{\partial C}{\partial a_j^L}\sigma^{'}(z_j^L)$

继续来推导反向传播公式二 (BP2):

δ l j = \partial C \partial z l j

$\delta_j^l=\frac{\partial C}{\partial z_j^l}$
于是：

δ l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z l j

$\delta_j^l=\sum_k\frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial z_j^l}$
继续推导:

δ l j = \sum k \partial z l + 1 k \partial z l k δ l + 1 k

$\delta_j^l=\sum_k\frac{\partial z_k^{l+1}}{\partial z_k^l}\delta_k^{l+1}$
因为:

z l + 1 k = \sum j w l + 1 j a l j + b l + 1 j = \sum j w l + 1 j σ (z l k) + b l + 1 j

$z_k^{l+1}=\sum_jw_j^{l+1}a_j^l+b_j^{l+1}=\sum_jw_j^{l+1}\sigma(z_k^l)+b_j^{l+1}$
所以:

\partial z l + 1 k \partial z l k = w l + 1 k σ' (z l k)

$\frac{\partial z_k^{l+1}}{\partial z_k^l}=w_k^{l+1}\sigma^{'}(z_k^l)$
因此:

δ l j = \sum k w l + 1 k j δ l + 1 k σ' (z l k)

$\delta_j^l=\sum_kw_{kj}^{l+1}\delta_k^{l+1}\sigma^{'}(z_k^l)$
这就是反向传播公式二BP2, 也可以简写为:

δ l = (w l + 1) T δ j + 1 σ' (z l)

$\delta^l=(w^{l+1})^T\delta_{j+1}\sigma^{'}(z^l)$
于是，如果我们已知

δl $\delta^l$ , 可以计算

δl−1 $\delta^{l-1}$ .

神经网络的学习过程最终需要调整 $w$ 和 $b$ , 所以我们需要计算
$\frac{\partial C}{\partial w_{jk}^l}$ 和 $\frac{\partial C}{\partial b_j^l}$ 。这就是反向传播公式三和四(BP3 and BP4)
待续

Reference

http://neuralnetworksanddeeplearning.com/ 强烈推荐
机器学习 - 周志华清华大学出版社
https://en.wikipedia.org/wiki/Hadamard_product_(matrices)

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络笔记 - 反向传播(BackPropagation)

神经网络的数学描述:wljkw_{jk}^l表示l−1l-1层的第jj个神经元到ll层的第kk个神经元输入的权重. bljb_j^l表示 ll层的第jj个神经元的偏移 alja_j^l表示ll层的第jj个神经元的输出所以: alj=σ(∑kwljkal−1k+blj)a_j^l=\sigma(\sum_kw_{jk}^{l}a_k^{l-1} + b_j^l) 也可以用更简洁的描述
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。