神经网络的参数更新（BP算法）

最新推荐文章于 2023-11-25 17:48:35 发布

吕秀才

最新推荐文章于 2023-11-25 17:48:35 发布

阅读量6.1k

点赞数 12

分类专栏：算法深度学习文章标签：自然语言处理 transformer 深度学习

本文链接：https://blog.csdn.net/nocml/article/details/110290455

版权

算法同时被 2 个专栏收录

24 篇文章 2 订阅

订阅专栏

深度学习

9 篇文章 28 订阅

订阅专栏

1. BP算法的提出

BP算法最初是由Paul Werbos在1974其博士论文中首次论证。 David E. Rumelhart 、Geoffrey Hinton、Ronald J. Wlilliams 三人在1986年再次发表在了1986年10月9日的Nature上，（原始论文地址这个要收费，文末有免费的paper地址，整个paper篇幅不长，有兴趣的可以下来读一读。）目前我们通常说的BP算法多指86年提出的算法。

2. BP算法的理解

BP算法的理解可以拆解成三部分：

反向传播
梯度下降
链式法则

下面我们简单的说下各部分的细节

2.1 反向传播

何为反向传播？就是使用预测值与实际值的差异来反向更新网络的参数。这里的差异指通过损失函数计算出的 $l o s s$ ，举例，如： $loss=\frac{1}{2}\sum_{i=1}^{n}{(y_i-y_i^*)^2}$ ，这个总体的 $l o s s$ 就是我们要更新参数的依据。

2.2 梯度下降

我们现在想使用 $l o s s$ 来更新参数，怎么更新呢？我们先从简单的入手，如下这个网络。(偏置项没有画)

我们是怎么计算出loss的？根据公式 $loss=\frac{1}{2}\sum_{i=1}^{n}{(y_i-y_i^*)^2}$
$loss=\frac{1}{2}(y-o_1)^2 + \frac{1}{2}(y-o_2)^2\\ o_1=sigmoid(h_1*w_5+h_2*w_6 +b_2)\\ o_2=sigmoid(h_1*w_7+h_2*w_8 +b_2)\\ h_1=sigmoid(x_1*w_1+x_2*w_2 +b_1)\\ h_2=sigmoid(x_1*w_3+x_2*w_4 +b_1)$
这里我们把 $h_1$ 、 $h_2$ 代入 $o_1$ 、 $o_2$ ,再把 $o_1$ 、 $o_2$ 代入 $l o s s 的公式$ ，最后我们会得到一个关于 $x$ 的式子 $L (x)$ (这个式子太长了，不写了)，我们的 $l o s s$ 就是把 $x$ 输入到这个式子计算得到的。说了这么多，其实我只是想表达一件事儿，就是神经网络看起来很复杂，但用数学描述后，就是一个很大的复合函数。把输入变量输进来，就能得到 $l o s s$ （网络的输出当然是 $y *$ ）,之后就好办了，更新一个函数的参数我们可以用梯度下降法：
$w^* = w - \alpha\frac{{\partial}f}{ {\partial}w}$

2.3 链式求导

问题转化为怎么求导 $\frac{{\partial}f}{ {\partial}w}$ ，这里我们以更新参数 $w_5$ 来举例说明：
我们看看 $w_5$ 是从哪里开始影响 $l o s s$ 的
$loss=\frac{1}{2}(y-o_1)^2 + \frac{1}{2}(y-o_2)^2\\ o_1=sigmoid(h_1*w_5+h_2*w_6 +b_2)\\ o_2=sigmoid(h_1*w_7+h_2*w_8 +b_2)\\$
我们定义sigmoid函数为 $\frac{1}{1+e^x}$ , sigmoid函数内的式子定义为 $\vec{x} * \vec{w}$ (偏置项可以理解为 $1 * b$ , $w$ 为参数), 损失函数定义为 $L(y)=\frac{1}{2}\sum_{i=1}^{n}{(y_i-y_i^*)^2}$ ，则：
$\begin{aligned} loss&=L(o)=L(g(f(h)))\\ o_1 &= g_1(f_1(h_{1,2},w_{5,6}))\\ o_2 &= g_2(f_2(h_{1,2},w_{7,8}))\\ \end{aligned}$

这个式子就是我上面说的超长的式子 $L (x)$ (这里没有展开，所以看着不长)，当然这个式子的输入是 $h_1$ 、 $h_2$ 。我们计算 $L (x)$ 关于 $w$ 的偏导，这里用到了数学中的链式法则，即：
$\frac{{\partial}L}{ {\partial}w}=\frac{{\partial}L}{ {\partial}g}*\frac{{\partial}g}{ {\partial}f}*\frac{{\partial}f}{ {\partial}w}$

因为只有 $g_1$ 包含 $w_5$ 所以
$\begin{aligned} \frac{{\partial}L}{ {\partial}g} &= \frac{{\partial}L}{ {\partial}g_1}=\frac{\partial{(\frac{1}{2}(y-g_1)^2 + \frac{1}{2}(y-g_2)^2})}{\partial{g_1}}=-(y-g_1)=-(y-o_1)\\ \frac{\partial{g}}{\partial{f}} &= \frac{\partial{\frac{1}{1+e^f}}}{\partial{f}}=\frac{1}{1+e^f}(1- \frac{1}{1+e^f})=o_1(1-o_1)\\ \frac{\partial{f}}{\partial{w}} &= \frac{\partial{(h_1*w_5+h_2*w_6）}}{\partial{w}}=h_1 \end{aligned}$
所以 $\frac{{\partial}L}{ {\partial}w}=-(y-o_1) * o_1(1-o_1) * h_1$
而 $y、o_1、h_1$ 这三个变量在正向传播时已经计算出了，也就是说算到这步，我们就求出 $\frac{\partial{L}}{\partial{w}}$ 了，然后我们把结果代到 $w^* = w - \alpha\frac{{\partial}f}{ {\partial}w}$ 中就可以更新参数了。

3. 再谈反向传播

现在有很多人一聊起BP算法就提链式法则，忽略了反向传播的基本思想，原因可能是现在的各种神经网络参数更新都使用这种方法，但殊不知，在这个简单的思想提出前，多层感知机的参数学习一直是一个很大的问题。这个思想统治了近35年的神经网络参数更新方式。但有意思的是，前两年，做为这个算法的提出者Hinton大神，亲自提出了要推翻BP算法的想法，用Hinton的说法是（下面不是原话哈，我的理解），BP算法是不符合人脑学习规律的，人脑是从前向后一边接收信息，一边学习的，而不是到最后看到结果了才学习（更新参数），而我们的神经网络其实是模拟人脑结构的（基于神经元），但学习方法确与人脑的不符，之后如果神经网络要有大的发展，必定是舍弃BP算法，寻找到一种从前向后的学习方法。

论文下载点这里

吕秀才

关注

12
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
神经网络的参数更新（BP算法）

最近面临换工作的问题，想把以前的算法知识捡一捡，1、向前算法#mermaid-svg-VhyBzTddVryJDIKa .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-VhyBzTddVryJDIKa .label text{fill:#333}#mermaid-svg-VhyBzTddVryJDIKa .n
复制链接

扫一扫