反向传播--雅可比矩阵

lalahappy

已于 2024-03-28 18:11:01 修改

阅读量978

点赞数 31

文章标签：矩阵线性代数人工智能

于 2024-03-27 16:47:24 首次发布

本文链接：https://blog.csdn.net/qq_42563807/article/details/137080909

版权

深度学习中，我们需要沿着梯度下降的方向，更新参数。
偏导数是表明了自变量对因变量产生了多大的影响。最理想的状态是偏导数等于0，没有对误差最终的误差产生影响。 ---- 一阶导与极值的关系
在损失函数所代表的“几何图像”上，用损失函数的梯度能够找到损失函数变化最快的方向。
如果正方向是增加的话，那么反方向就是最快减小的方向。
偏导的定义，是基于某点函数有增量；
在这里插入图片描述

第一层是输入层，包含两个神经元 $i_{1}$ ， $i_{2}$ 和截距项 $b_{1}$ ;
第二层是隐含层，包含两个神经元 $h_{1}$ ， $h_{2}$ 和截距项 $b_{2}$ ;
第三层是输出 $o_{1}$ ， $o_{2}$ ;
每条线上标的 $w_{i}$ 是层与层之间连接的权重，激活函数采用sigmoid函数；

由公式wx+b可知：
$\mathbf{w} \times \mathbf{x} = \begin{bmatrix} w_{1} & w_{2} \\ w_{3}& w_{4} \end{bmatrix} \begin{bmatrix} i_{1} \\ i_{2} \end{bmatrix}=\begin{bmatrix} w_{1} i_{1}+w_{2} i_{2} \\ w_{3} i_{1}+w_{4} i_{2} \end{bmatrix}$

前向传播：

输入层 $\rightarrow$ 隐藏层：
$net_{h_{1}} = w_{1} i_{1}+w_{2} i_{2}+b_{1}$
$net_{h_{1}} = 0.15*0.05+0.2*0.1+0.35=0.3775$

$net_{h_{2}} = w_{3} i_{1}+w_{4} i_{2}+b_{1}$
$net_{h_{2}} = 0.25*0.05+0.3*0.1+0.35$
激活函数：
$out_{h_{1}} = sigmoid(net_{h_{1}})=0.593269992$
$out_{h_{2}} = sigmoid(net_{h_{2}})=0.596884378$
隐藏层 $\rightarrow$ 输出层：
$net_{o_{1}} = w_{5}out_{h_{1}}+w_{6}out_{h_{2}}+b_{2}$

$net_{o_{2}} = w_{7}out_{h_{1}}+w_{8}out_{h_{2}}+b_{2}$
激活函数：
$out_{o_{1}} = sigmoid(net_{o_{1}})=0.75136507$
$out_{o_{2}} = sigmoid(net_{o_{2}})=0.772928465$

通过前向传播得到输出值为[0.75136079, 0.772928465]，
与实际值 [0.01, 0.99] 相差还很远，现在对误差进行反向传播，更新权值，重新计算输出。

反向传播：

计算总误差：

误差公式： $E_{total} = Σ \frac{1}{2}（target-output）^{2}$

有两个输出，所以分别计算 $o_{1}$ 和 $o_{2}$ 的误差，总误差之和为：

$E_{total} =E_{o_{1}} +E_{o_{2}} = 0.274811083+0.023560026=0.298371109$
隐藏层 $\rightarrow$ 输出层的权值更新：

以权重参数 $w_{5}$ 为例，如果我们想知道 $w_{5}$ 对整体误差产生了多少影响，可以用整体误差对 $w_{5}$ 求偏导求出（链式法则）:

$\frac{\partial E_{total}}{\partial w_{5}}$ = $\frac{\partial E_{total}}{\partial out_{o_{1}}}$ * $\frac{\partial out_{o_{1}}}{\partial net_{o_{1}}}$ * $\frac{\partial net_{o_{1}}}{\partial w_{5}}$

其中，因为：

$E_{total} = \frac{1}{2}(target_{o_{1}}-output_{o_{1}})^{2} + \frac{1}{2}(target_{o_{2}}-output_{o_{2}})^{2}$

即，

$\frac{\partial E_{total}}{\partial out_{o_{1}}}$ = $target_{o_{1}}-output_{o_{1}}) * (-1) = 0.74136507$ （误差）

因为，

$out_{o_{1}} = sigmoid(net_{o_{1}})$

即，

$\frac{\partial out_{o_{1}}}{\partial net_{o_{1}}}$ = 0.186815602 （sigmoid激活函数）

因为：

$net_{o_{1}} = w_{5}out_{h_{1}}+w_{6}out_{h_{2}}+b_{2}$

即，

$\frac{\partial net_{o_{1}}}{\partial w_{5}}$ = $out_{h_{1}}$ = 0.593269992 (conv)

最后可得：

$\frac{\partial E_{total}}{\partial w_{5}}$ = 0.082167041

更新 $w_{5}$ 的值，ŋ 代表学习率，这里取0.5：

$w_{5}^{+} = w_{5} - ŋ * \frac{\partial E_{total}}{\partial w_{5}}$ =0.35891648

在这里插入图片描述

隐藏层 $\rightarrow$ 输入层的权值更新：
$\frac{\partial E_{total}}{\partial w_{1}}$ = $\frac{\partial E_{total}}{\partial out_{h_{1}}}$ * $\frac{\partial out_{h_{1}}}{\partial net_{h_{1}}}$ * $\frac{\partial net_{h_{1}}}{\partial w_{1}}$

其中， $\frac{\partial E_{total}}{\partial out_{h_{1}}}$ = $\frac{\partial E_{o_{1}}}{\partial out_{h_{1}}}$ + $\frac{\partial E_{o_{2}}}{\partial out_{h_{1}}}$

其中， $\frac{\partial E_{o_{1}}}{\partial out_{h_{1}}}$ = $\frac{\partial E_{o_{1}}}{\partial net_{o_{1}}}$ * $\frac{\partial net_{o_{1}}}{\partial out_{h_{1}}}$

其中， $\frac{\partial E_{o_{1}}}{\partial net_{o_{1}}}$ = $\frac{\partial E_{o_{1}}}{\partial out_{o_{1}}}$ * $\frac{\partial out_{o_{1}}}{\partial net_{o_{1}}}$

即，

$\frac{\partial E_{total}}{\partial w_{1}}$ = ( $\frac{\partial E_{o_{1}}}{\partial out_{h_{1}}}$ + $\frac{\partial E_{o_{2}}}{\partial out_{h_{1}}}$ ) * $\frac{\partial out_{h_{1}}}{\partial net_{h_{1}}}$ * $\frac{\partial net_{h_{1}}}{\partial w_{1}}$

其中，

$\frac{\partial E_{o_{1}}}{\partial out_{h_{1}}}$ * $\frac{\partial out_{h_{1}}}{\partial net_{h_{1}}}$ * $\frac{\partial net_{h_{1}}}{\partial w_{1}}$ = $\frac{\partial E_{o_{1}}}{\partial out_{o_{1}}}$ * $\frac{\partial out_{o_{1}}}{\partial net_{o_{1}}}$ * $\frac{\partial net_{o_{1}}}{\partial out_{h_{1}}}$ * $\frac{\partial out_{h_{1}}}{\partial net_{h_{1}}}$ * $\frac{\partial net_{h_{1}}}{\partial w_{1}}$

另，

$\frac{\partial E_{o_{2}}}{\partial out_{h_{1}}}$ * $\frac{\partial out_{h_{1}}}{\partial net_{h_{1}}}$ * $\frac{\partial net_{h_{1}}}{\partial w_{1}}$ = $\frac{\partial E_{o_{2}}}{\partial out_{o_{2}}}$ * $\frac{\partial out_{o_{2}}}{\partial net_{o_{2}}}$ * $\frac{\partial net_{o_{2}}}{\partial out_{h_{1}}}$ * $\frac{\partial out_{h_{1}}}{\partial net_{h_{1}}}$ * $\frac{\partial net_{h_{1}}}{\partial w_{1}}$

上述公式基于：

$net_{o_{2}} = w_{7}out_{h_{1}}+w_{8}out_{h_{2}}+b_{2}$

在这里插入图片描述

雅可比矩阵 – Jacobian

雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式。
设函数如下：
在这里插入图片描述

是一个从欧式 n 维空间转换到欧式 m 维空间的函数；
这个函数由 m 个实函数组成，这些函数的偏导数(如果存在)可以组成一个 m 行 n 列的矩阵, 这就是所谓的雅可比矩阵：
在这里插入图片描述

下面公式中，如果只看两步，即 loss（E） $\rightarrow$ 激活函数（out），可以得到以下结论：

变量的梯度 = 上游变量的梯度 ✖ 当前变量的 J 矩阵

$\frac{\partial E_{total}}{\partial w_{5}}$ = $\frac{\partial E_{total}}{\partial out_{o_{1}}}$ * $\frac{\partial out_{o_{1}}}{\partial net_{o_{1}}}$ * $\frac{\partial net_{o_{1}}}{\partial w_{5}}$

$\frac{\partial E_{total}}{\partial w_{6}}$ = $\frac{\partial E_{total}}{\partial out_{o_{1}}}$ * $\frac{\partial out_{o_{1}}}{\partial net_{o_{1}}}$ * $\frac{\partial net_{o_{1}}}{\partial w_{6}}$

$\frac{\partial E_{total}}{\partial w_{7}}$ = $\frac{\partial E_{total}}{\partial out_{o_{2}}}$ * $\frac{\partial out_{o_{2}}}{\partial net_{o_{2}}}$ * $\frac{\partial net_{o_{2}}}{\partial w_{7}}$

$\frac{\partial E_{total}}{\partial w_{8}}$ = $\frac{\partial E_{total}}{\partial out_{o_{2}}}$ * $\frac{\partial out_{o_{2}}}{\partial net_{o_{2}}}$ * $\frac{\partial net_{o_{2}}}{\partial w_{8}}$

推理公式如下：

$\begin{bmatrix} \frac{\partial E_{total}}{\partial out_{o_{1}}} * \frac{\partial out_{o_{1}}}{\partial net_{o_{1}}} & \frac{\partial E_{total}}{\partial out_{o_{2}}} * \frac{\partial out_{o_{2}}}{\partial net_{o_{2}}} \end{bmatrix} = \begin{bmatrix} \frac{\partial E_{total}}{\partial out_{o_{1}}} & \frac{\partial E_{total}}{\partial out_{o_{2}}} \end{bmatrix} \begin{bmatrix} \frac{\partial out_{o_{1}}}{\partial net_{o_{1}}} & 0 \\ 0& \frac{\partial out_{o_{2}}}{\partial net_{o_{2}}} \end{bmatrix}$

参考：

https://zhuanlan.zhihu.com/p/261710847
https://www.cnblogs.com/charlotte77/p/5629865.html
https://zhuanlan.zhihu.com/p/641691381
https://blog.csdn.net/weixin_39354845/article/details/128280556
https://www.coonote.com/note/principle-of-back-propagation-algorithm.html

lalahappy

关注

31
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
反向传播--雅可比矩阵

第一层是输入层，包含两个神经元i1i2和截距项b1;第二层是隐含层，包含两个神经元h1h2和截距项b2;第三层是输出o1o2;每条线上标的wi是层与层之间连接的权重，激活函数采用sigmoid函数；
复制链接

扫一扫