手写误差反向传播算法Error BackPropagation

最新推荐文章于 2024-08-09 14:43:36 发布

-倾城之恋-

最新推荐文章于 2024-08-09 14:43:36 发布

阅读量571

点赞数 1

分类专栏：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/P081513083/article/details/97725456

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

深度学习

14 篇文章 0 订阅

订阅专栏

神经网络

13 篇文章 0 订阅

订阅专栏

本文介绍如何手写神经网络训练代码

已知数据：

输入数据 $X\in\mathbb{R}^{n\times d}$ ， $n$ 为样本个数， $d$ 为样本维数，也就是神经网络输入节点数。
标注数据 $Y\in\mathbb{R}^{n\times t}$ , $t$ 为输出维数，也就是神经网络输出节点数。
注意，为了便于书写，不考虑偏置Bias。

神经网络模型：

两层权重，三层节点。
$\widehat{Y}=f_2(f_1(XW_1)W_2)$ ， $W_1\in\mathbb{R}^{d\times h}$ 和 $W_2\in\mathbb{R}^{h\times t}$ 为带求参数。 $\widehat{Y}$ 为预测输出。 $f_1,f_2$ 为激励函数。

损失函数：

$L=\frac{1}{2}||\widehat{Y}-Y||^2$

训练伪代码:

初始化 $W_1$ , $W_2$ .
前向过程：
$H=f_1(XW_1)$
$\widehat{Y}=f_2(HW_2)$
反向过程：
令 $e=\widehat{Y}-Y$
$\frac{\partial L}{\partial W_2}=f_1^T[e.*f_2']$

$\frac{\partial L}{\partial W_1}=X^T[eW_2^T.*f_1']$
此处注意误差 $e$ 传递过程，当层数更多时只需计算 $eW^T$ 即可。
（直观上说，任何一条权重的梯度等于 $a_iea_o'$ ： $a_i$ 为输入权重的激励值，e为传到输出节点 $a_o$ 的误差， $a_o'$ 为激励函数导数输出。）
注意：反向传播是一种自动微分技术，是一种特殊的反向模式自动微分技术，其通过构建计算图来计算所有权重的梯度。
如下是一个两层权重神经网络的计算图示意图：

$\frac{\partial L}{\partial \widehat{Y}}=(\widehat{Y}-Y).*f'_2$
$\frac{\partial\widehat{Y}}{\partial W_2} = H.*f_2'$
$\frac{\partial L}{\partial W_2}=\frac{\partial\widehat{Y}}{\partial W_2}^T\frac{\partial L}{\partial \widehat{Y}}$
$\frac{\partial \widehat{Y}}{\partial H} = W_2.*f_2'$
$\frac{\partial L}{\partial H}=\frac{\partial \widehat{Y}}{\partial H}\frac{\partial L}{\partial\widehat{Y}}$
$\frac{\partial H}{\partial W_1} = X.*f_1'$
$\frac{\partial L}{\partial W_1}=\frac{\partial H}{\partial W_1}^T \frac{\partial L}{\partial H}$
实际梯度batch平均梯度为：
$\frac{\partial L}{\partial W_2}=\frac{\partial L}{\partial W_2}/n$
$\frac{\partial L}{\partial W_1}=\frac{\partial L}{\partial W_1}/n$
应用梯度更新权重：
$W_1=W_1-\alpha\frac{\partial L}{\partial W_1}$
$W_2=W_2-\alpha\frac{\partial L}{\partial W_2}$
$\alpha$ 为学习率。
计算损失函数，不收敛则继续2-4步骤。