DIDL笔记（pytorch版）（四）

最新推荐文章于 2022-12-24 16:51:51 发布

Alter__

最新推荐文章于 2022-12-24 16:51:51 发布

阅读量282

点赞数

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alter__/article/details/117292312

版权

深度学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

文章目录

正向传播

在这里插入图片描述
白话总结：输入 $x$ 与 $W^{(1)}$ 做乘运算得到 $z$ ， $z$ 经过激活函数得到中间层输入 $h$ ， $h$ 与 $W^{(2)}$ 做乘运算得到输出结果 $o$ ，到这里如果是预测就结束了，但是如果是训练的话还需要其他步骤。 $o$ 与真值 $y$ 经过损失函数得到损失值 $L$ ， $L$ 再与正则化项 $s$ （ $W^{(1)}$ 、 $W^{(1)}$ 得到）相加得到目标函数 $J$ ，我们在学习的时候就知道，我们要做的就是最小化目标函数 $J$ 。

反向传播

反向传播指的是计算神经网络参数梯度的方法。总的来说，反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。逆推步骤如下：

$J$ 分别对于 $L$ 和 $s$
$J$ 对于 $o$
$s$ 分别对于 $W^{(1)}$ 和 $W^{(2)}$
$J$ 对于 $W^{(2)}$
$J$ 对于 $h$
$J$ 对于 $z$
$J$ 对于 $W^{(1)}$

衰减和爆炸

不只是中间层的结果，中间层的梯度也会出现衰减或者爆炸。假设我们不考虑b并且把激活函数设置为恒等变换，那么中间层的输出为 $H^{(l)}=XW^{(1)}W^{(2)}...W^{(l)}$ 。假设是30层，开始权重为0.2或者5 的时候，会出现0.2 或者 5的30次方。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Alter__ CSDN认证博客专家 CSDN认证企业博客

码龄8年

86: 原创

30万+: 周排名

204万+: 总排名

7万+: 访问

: 等级

1350: 积分

25: 粉丝

27: 获赞

11: 评论

113: 收藏

私信

关注

热门文章

分类专栏

最新评论

谁说菜鸟不会数据分析（1）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
VGGNet论文总结
Cdf（人名）: 好文章，学习了
DIDL笔记（pytorch版）（七）
我爱人工智能: 写的很详细
VGGNet论文总结
宇宙爆肝锦标赛冠军: 支持大佬，赞赞赞！
dive into deep learning 笔记（pytorch版本）（一）
LaoYuanPython: 有幸阅读博主新作！博主的详尽分享使人受益,谢谢！如此好文,必须点赞！欢迎博主到本人的Python专栏来交流！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。