深度学习（30）随机梯度下降七: 多层感知机梯度（反向传播算法）

最新推荐文章于 2022-04-01 13:25:31 发布

炎武丶航

最新推荐文章于 2022-04-01 13:25:31 发布

阅读量402

点赞数

分类专栏：深度学习 TensorFlow2 文章标签：深度学习 tensorflow

本文链接：https://blog.csdn.net/weixin_43360025/article/details/119961774

版权

深度学习同时被 2 个专栏收录

125 篇文章 54 订阅

订阅专栏

TensorFlow2

69 篇文章 12 订阅

订阅专栏

深度学习（30）随机梯度下降八: 多层感知机梯度（反向传播算法）

1. 多层感知机模型
2. 多层感知机梯度
3. 传播规律小结

tens
Recap
Chain Rule
在这里插入图片描述

Multi-output Perceptron
在这里插入图片描述

$\frac{∂E}{∂w_{jk}} =(O_k-t_k)O_k (1-O_k)x_j^0$
Multi-Layer Perception

1. 多层感知机模型

在这里插入图片描述

$\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^0$ $\to$ $\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^J$ 设: $δ_k^K=(O_k-t_k)O_k (1-O_k)$ 注: 这里可以将 $δ_k^K$ 理解为是k节点的一个属性; $\frac{∂E}{∂w_{jk}} =δ_k^K x_j^J$

2. 多层感知机梯度

在这里插入图片描述

$\frac{∂E}{∂w_{ij}} =\frac{∂}{∂w_{ij} } \frac{ 1}{2} ∑_{k∈K}(O_k-t_k)^2$ $\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ∂}{∂w_{ij}} O_k$
$\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ∂}{∂w_{ij}} σ(x_k )$ $\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{∂σ(x_k )}{∂x_k } \frac{∂x_k}{∂w_{ij} }$ $\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k ) σ(x_k )(1-σ(x_k ))\frac{∂x_k}{∂w_{ij} }$ $\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{∂x_k}{∂w_{ij} }$ $\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{∂x_k}{∂O_j} \frac{∂O_j}{∂w_{ij}}$ $\because x_k^K=O_0^J w_{0k}^J+O_1^J w_{1k}^J+⋯+O_j^J w_{jk}^J+⋯+O_n^J w_{nk}^J$ $\therefore\frac{∂E}{∂w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk} \frac{∂O_j}{∂w_{ij}}$ $\frac{∂E}{∂w_{ij}} = \frac{∂O_j}{∂w_{ij}}∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk}$ $\because\frac{∂O_j}{∂w_{ij}}=\frac{∂O_j}{∂x_j} \frac{∂x_j}{∂w_{ij}} =O_j (1-O_j)\frac{∂x_j}{∂w_{ij}}$ $\therefore\frac{∂E}{∂w_{ij}} =O_j (1-O_j) \frac{∂x_j}{∂w_{ij}}∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk}$ $\frac{∂E}{∂w_{ij}} =O_j (1-O_j)O_i ∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk}$ $\because (O_k-t_k ) O_k (1-O_k )=δ_k$ $\therefore \frac{∂E}{∂w_{ij}}=O_i O_j (1-O_j)∑_{k∈K}δ_k w_{jk}$ 设: $δ_j^J=O_j (1-O_j)∑_{k∈K}δ_k w_{jk}$ 则: $\frac{∂E}{∂w_{ij}}=δ_j^J O_i^I$ 注: 可以把 $δ_k^K$ 理解为当前连接w_ij对误差函数的贡献值;

3. 传播规律小结

输出层
$\frac{∂E}{∂w_{jk}}=δ_k^{(K)} O_j$ $δ_k^{(K)}=O_k (1-O_k)(O_k-t_k)$
倒数第二层
$\frac{∂E}{∂w_{ij}}=δ_j^{(J)} O_i$ $δ_j^{(J)}=O_j (1-O_j)∑_kδ_k^{(K)} w_{jk}$
倒数第三层
$\frac{∂E}{∂w_{ni}}=δ_i^{(I)} O_n$ $δ_i^{(I)}=O_i (1-O_i)∑_jδ_j^{(J)} w_{ij}$ 其中 $O_n$ 为倒数第三层的输入，即倒数第四层的输出。

依照此规律，只需要循环迭代计算每一层每个节点的 $δ_k^{(K)}$ 、 $δ_j^{(J)}$ 、 $δ_i^{(I)}$ 等值即可求得当前层的偏导数，从而得到每层权值矩阵W的梯度，再通过梯度下降算法迭代优化网络参数即可。

参考文献:
[1] 龙良曲:《深度学习与TensorFlow2入门实战》

炎武丶航

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习（30）随机梯度下降七: 多层感知机梯度（反向传播算法）

深度学习（30）随机梯度下降七: 多层感知机梯度（反向传播算法）1. 多层感知机模型2. 多层感知机梯度3. 传播规律小结tensRecapChain RuleMulti-output Perceptron∂E∂wjk=(Ok−tk)Ok(1−Ok)xj0\frac{∂E}{∂w_{jk}} =(O_k-t_k)O_k (1-O_k)x_j^0∂wjk∂E=(Ok−tk)Ok(1−Ok)xj0Multi-Layer Perception1. 多层感知机模型∂E∂wjk=
复制链接

扫一扫

专栏目录