笔记(2)：BP算法

最新推荐文章于 2022-10-27 16:13:49 发布

Lehyu

最新推荐文章于 2022-10-27 16:13:49 发布

阅读量464

点赞数

分类专栏：深度学习文章标签：深度学习 BP算法

本文链接：https://blog.csdn.net/Lehyu/article/details/52232063

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

基础

神经网络的表示

在基于梯度的优化方法中, 我们提到一个具有 $nl+1$ 层的神经网络可以一般表示为 $y^{'}=f(W,b,X)= f_{nl}(W^{nl},b^{nl},f_{nl-1}(W^{nl-1},b^{nl-1},...f_{1}(W^1,b^1,X)...))$ ，神经网络的训练就是调整 $W,b$ 使得 $L(y, f(W,X,b))$ 最小。
需要注意的是，当神经网络从第0层，即输入层为第0层与输入层为第1层开始的表述可能由稍许不同。本博文以输入层为第1层，输入层与下一层之间的权值与偏置值记为 $W^1,b^1$ 。

链式法则

链式法则（chain rule）是求复合函数导数的一个法则。假设 $f,g$ 为两个关于x的可导函数，则复合函数 $y=f(g(x))$ 的导数为 $\frac{dy}{dx}=\frac{df}{dg}\frac{dg}{dx}=f^{'}(g(x))g^{'}(x)$ 。

求解 $L(y, f(W,X,b))$ 的最优值

首先损失函数 $L$ 是关于 $W,b$ 的函数，由基于梯度的优化方法，我们可以知道可以根据梯度来0更新搜索最优值。而 $L$ 是一个复合函数，因此我们可以采用链式法则来迭代调整每一层网络的权值与偏置值。假如我们采用梯度下降的方法来调整 $nl$ 层，则有：

\partial L \partial W n l = \partial L \partial f n l \partial f n l \partial W n l

$\frac{\partial L}{\partial W^{nl}} = \frac{\partial L}{\partial f_{nl}}\frac{\partial f_{nl}}{\partial W^{nl}}$

W n l i + 1 = W n l i - ϵ \partial L \partial W n l

$W_{i+1}^{nl}=W_{i}^{nl}-\epsilon \frac{\partial L}{\partial W^{nl}}$
如此我们可以迭代更新每次的

Wi,bi $W_i,b_i$ 。

神经网络的前馈算法

我们知道在神经网络中上一层的输出时下一层的输入，假设第 $j$ 层输出为 $a^{j}$ , 则第 $j+1$ 层的输出为 $a^{j+1} = f_{j}(W^{j}a^{j}+b^{j})$ ，其中 $f_{j}$ 为激活函数，当我们令 $z^{j+1}=W^{j}a^{j}+b^{j}$ 时，我们就可以得到如下算法：
1. 令 $j=1$ ， $a^{j}=a^{1} = X$
2. 计算 $z^{j+1} = W^{j}a^{j}+b^{j}$
3. 计算 $a^{j+1} = f_{j}(z^{j+1})$
4. 重复步骤2-3，直到输出层 $y^{'} = a^{nl+1}=f_{nl}(z^{nl+1})=f_{nl}(W^{nl}a^{nl}+b^{nl})$

BP算法

第 $nl$ 层网络的更新

我们知道 $nl+1$ 层的输出为 $y^{'} =a^{nl+1} = f_{nl}(z^{nl+1}), z^{nl+1} = W^{nl}a^{nl}+b^{nl}$ ，则损失函数为 $L(y,f_{nl}(W^{nl}a^{nl}+b^{nl}))$ 。则
对 $W^{nl}$ 更新

\partial L \partial W n l = \partial L \partial f n l \partial f n l \partial W n l = \partial L \partial f n l a n l

$\frac{\partial L}{\partial W^{nl}} = \frac{\partial L}{\partial f_{nl}}\frac{\partial f_{nl}}{\partial W^{nl}}=\frac{\partial L}{\partial f_{nl}}a^{nl}$

W n l i + 1 = W n l i - ϵ \partial L \partial W n l

$W_{i+1}^{nl}=W_{i}^{nl}-\epsilon \frac{\partial L}{\partial W^{nl}}$
对

bnl $b^{nl}$ 更新

\partial L \partial b n l = \partial L \partial f n l \partial f n l \partial b n l = \partial L \partial f n l

$\frac{\partial L}{\partial b^{nl}} = \frac{\partial L}{\partial f_{nl}}\frac{\partial f_{nl}}{\partial b^{nl}}=\frac{\partial L}{\partial f_{nl}}$

b n l i + 1 = b n l i - ϵ \partial L \partial W n l

$b_{i+1}^{nl}=b_{i}^{nl}-\epsilon \frac{\partial L}{\partial W^{nl}}$

第 $nl-1$ 层网络的更新

此时 $L=L(y,f_{nl}(W^{nl}f_{nl-1}(W^{nl-1}a^{nl-1}+b^{nl-1})+b^{nl}))$ ，则对 $nl-1$ 层更新为：
对 $W^{nl-1}$ 更新

\partial L \partial W n l - 1 = \partial L \partial f n l \partial f n l \partial f n l - 1 \partial f n l - 1 \partial W n l - 1 = \partial L \partial f n l W n l a n l - 1

$\frac{\partial L}{\partial W^{nl-1}} = \frac{\partial L}{\partial f_{nl}} \frac{\partial f_{nl}}{\partial f_{nl-1}} \frac{\partial f_{nl-1}}{\partial W^{nl-1}}=\frac{\partial L}{\partial f_{nl}} W^{nl} a^{nl-1}$

W n l i + 1 = W n l i - ϵ \partial L \partial W n l - 1

$W_{i+1}^{nl}=W_{i}^{nl}-\epsilon \frac{\partial L}{\partial W^{nl-1}}$
对

bnl−1 $b^{nl-1}$ 更新

\partial L \partial b n l - 1 = \partial L \partial f n l \partial f n l \partial f n l - 1 \partial f n l - 1 \partial b n l - 1 = \partial L \partial f n l W n l

$\frac{\partial L}{\partial b^{nl-1}} = \frac{\partial L}{\partial f_{nl}} \frac{\partial f_{nl}}{\partial f_{nl-1}} \frac{\partial f_{nl-1}}{\partial b^{nl-1}}=\frac{\partial L}{\partial f_{nl}} W^{nl}$

b n l i + 1 = b n l i - ϵ \partial L \partial b n l - 1

$b_{i+1}^{nl}=b_{i}^{nl}-\epsilon \frac{\partial L}{\partial b^{nl-1}}$

综合

明显第 $j(j\neq nl)$ 层来说，更新与第 $n-1$ 层类似。观察上述等式，我们知道每层对权值的导数十分相似，都是一个项乘以上一层的输出，即当前层的输入，我们将该项称为“error term” $\delta^{j}$ 。
则第 $nl$ 层:

δ n l = \partial L \partial f n l

$\delta^{nl} = \frac{\partial L}{\partial f_{nl}}$

W n l i + 1 = W n l i - ϵ δ n l a n l

$W_{i+1}^{nl}=W_{i}^{nl}-\epsilon \delta^{nl} a^{nl}$

b n l i + 1 = b n l i - ϵ δ n l

$b_{i+1}^{nl}=b_{i}^{nl}-\epsilon \delta^{nl}$
第

j(j≠nl) $j(j\neq nl)$ 层：

δ j = δ j + 1 W j + 1

$\delta^{j} = \delta^{j+1} W^{j+1}$

W j i + 1 = W j i - ϵ δ j a j

$W_{i+1}^{j}=W_{i}^{j}-\epsilon \delta^{j} a^{j}$

b j i + 1 = b j i - ϵ δ j

$b_{i+1}^{j}=b_{i}^{j}-\epsilon \delta^{j}$

伪代码

计算第 $nl$ 层的 error term： $\delta^{nl} = \frac{\partial L}{\partial f_{nl}}$
计算第 $j(j = nl-1,nl-2,\dots,1)$ 层 error term： $\delta^{j} = \delta^{j+1} W^{j+1}$
更新第 $j+1$ 层的权值与偏置值：
$W j + 1 i + 1 = W j + 1 i - ϵ δ j + 1 a j + 1$ $W_{i+1}^{j+1}=W_{i}^{j+1}-\epsilon \delta^{j+1} a^{j+1}$
$b j + 1 i + 1 = b j + 1 i - ϵ δ j + 1$ $b_{i+1}^{j+1}=b_{i}^{j+1}-\epsilon \delta^{j+1}$
重复步骤2-3,知道 $j=1，同理更新第1层权值与偏置值

Lehyu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记(2)：BP算法

基础神经网络的表示在基于梯度的优化方法中, 我们提到一个具有 nl+1nl+1 层的神经网络可以一般表示为 y′=f(W,b,X)=fnl(Wnl,bnl,fnl−1(Wnl−1,bnl−1,...f1(W1,b1,X)...))y^{'}=f(W,b,X)= f_{nl}(W^{nl},b^{nl},f_{nl-1}(W^{nl-1},b^{nl-1},...f_{1}(W^1,b^1,X)...
复制链接

扫一扫