《动手学——梯度消失、梯度爆炸》笔记

最新推荐文章于 2024-07-28 16:01:05 发布

lqqqqqc

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量261

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42314414/article/details/104330935

版权

本文探讨了深度模型中遇到的梯度消失和梯度爆炸问题，解释了它们对模型稳定性的影响。文章介绍了随机初始化模型参数的重要性，特别是PyTorch的默认初始化策略和Xavier随机初始化方法，旨在保持模型各层输出和梯度的稳定性。此外，还讨论了环境因素，如协变量偏移、标签偏移和概念偏移，强调了在实际应用中适应数据变化的必要性。

摘要由CSDN通过智能技术生成

梯度消失和梯度爆炸

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。

当神经网络的层数较多时，模型的数值稳定性容易变差。

假设一个层数为 $L$ 的多层感知机的第 $l$ 层 $\boldsymbol{H}^{(l)}$ 的权重参数为 $\boldsymbol{W}^{(l)}$ ，输出层 $\boldsymbol{H}^{(L)}$ 的权重参数为 $\boldsymbol{W}^{(L)}$ 。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping） $\phi(x) = x$ 。给定输入

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。