P20 PyTorch 反向传播算法

最新推荐文章于 2024-08-18 11:51:47 发布

明朝百晓生

最新推荐文章于 2024-08-18 11:51:47 发布

阅读量262

点赞数

分类专栏：人工智能文章标签：神经网络人工智能深度学习 Powered by 金山文档

4AM_明朝百晓生

本文链接：https://blog.csdn.net/chengxf2/article/details/129167380

版权

人工智能专栏收录该内容

102 篇文章 3 订阅

订阅专栏

前言：

反向传播是深度学习的基础核心，如果掌握了这个，其它的模型会很容易理解。

这里面结合前面的多层感知机，深入了解一下权重数是如何更新的

目录：

1: 多层感知机节点间的权重系数更新

2：反向传播的基本思路

3：整体训练流程

一多层感知机节点间的权重系数更新

我们常见的DNN 结构

问题：

t层的权重系数 $\text{[math]}$ 如何更新求梯度呢？

$\text{[math]}$

上图 $\text{[math]}$ 影响到t层j节点，j节点影响到t+1层m个节点。这里假设t+1为最后一层

前向传播公式

$\text{[math]}$

$\text{[math]}$

设损失函数

$\text{[math]}$

梯度更新

这里面重点看一下t-1 层到t 层 i,j 节点之间权重系数更新过程.

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

上面公式可以简化

$\text{[math]}$

其中

$\text{[math]}$ 只跟当前层的输出有关系

通过上面可以更进一步看出梯度爆炸和梯度弥散的原理

二反向传播的基本思路（DNN）

输入

向量x,

$\text{[math]}$

前向传播

$\text{[math]}$

$\text{[math]}$

损失函数

$\text{[math]}$

梯度更新过程：主要利用了向量的链式求导原理，以及梯度和迹之间的关系。

假设一共L 层，

step1: 先计算最后一层

设

step2: 利用链式法则，递归的求出每一层的 $\text{[math]}$

step3: 利用梯度和迹之间的关系，求出每一层的梯度

证明：

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$

三整体训练流程

Train:

明朝百晓生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。