神经网络（三）—— BP算法基本推导

最新推荐文章于 2023-11-27 14:08:36 发布

木子六日

最新推荐文章于 2023-11-27 14:08:36 发布

阅读量1k

点赞数

分类专栏：机器学习/深度学习文章标签：神经网络算法深度学习机器学习人工智能

本文链接：https://blog.csdn.net/Paul_1i/article/details/104117550

版权

机器学习/深度学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

BP算法

前情回顾

上回我们说到，单层的线性神经网络权值的迭代公式是：
$w:=w-\eta X^T(f(wX)-y)f'(wX)$
其中呢，这个 $(f (w X) - y) f^{'} (w X)$ 我们称它为 $\delta$ ，于是
$w:=w-\eta X^T\delta$
不用必须是线性神经网络，其他激活函数也适用于这个公式，只不过线性的话就可以把f’(wX)这一项去掉。

对于多层的神经网络来说，每一层的权值怎么更新呢？

下面以二层的网络为例给出推导。

基本推导

二层网络

损失函数自然就是
$E=\frac12(O-Y)^2$
这个二层的网络是如何工作的？

我们把它看成两个单层的就好。

一开始我们初始化了两层的权值V和W。

假设我们的激活函数是f(x).

中间层的输出就可以计算:
$M = f (V X)$
然后我们把 M作为下一层的输入，就可以得到预测值O：
$O = f (W M)$
接下来将损失函数对W求导我们就能得到W的迭代方程:
$W:=W-\eta M^T\delta_2$
其中的 $\delta_2$ 就是 $(O - Y) * f^{'} (W M)$ ,也同样可以写成 $\frac{\partial E}{\partial (WM)}$

这样一来我们就更新了 $W$ ,记作 $W_2$ 。

通过迭代W之后，我们知道现在的 $W_2$ 可以使得f(WM)更加接近Y。

同样的想法我们要改变V使得f(VX)更加接近M的‘真实值’，从而使得 $f(W_2M_2)$ 更接近Y。

同理：
$V:=V-\eta X^T\delta_1$
$\delta_1$ 可以写成 $\frac{\partial E}{\partial (VX)}$ ，根据链式求导法则
$\delta_1=\frac{\partial E}{\partial (VX)}=\frac{\partial E}{\partial (WM)}\cdot\frac{\partial (WM)}{\partial M}\cdot\frac{\partial M}{\partial (VX)}\\=\delta_2\cdot W_2\cdot f'(VX)\\$
求出 $\delta_1$ 后，V权值也能更新了。