深度学习总结(六)——梯度弥散、爆炸和过拟合

最新推荐文章于 2023-01-02 23:00:08 发布

VIP文章 manong_wxd

最新推荐文章于 2023-01-02 23:00:08 发布

阅读量9.6k

点赞数 4

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/manong_wxd/article/details/78735599

版权

这里写图片描述

一、梯度弥散和爆炸

1. 梯度弥散的解释

梯度弥散的问题很大程度上是来源于激活函数的“饱和”。因为在后向传播的过程中仍然需要计算激活函数的导数，所以一旦卷积核的输出落入函数的饱和区，它的梯度将变得非常小。

使用反向传播算法传播梯度的时候，随着传播深度的增加，梯度的幅度会急剧减小，会导致浅层神经元的权重更新非常缓慢，不能有效学习。这样一来，深层模型也就变成了前几层相对固定，只能改变最后几层的浅层模型。

梯度爆炸的情况正好相反。

2. 防止梯度弥散的方法

BN。加入BN层之前，反向传播的梯度为：

∂l∂hk=∂l∂hl∏l

最低0.47元/天解锁文章

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
深度学习总结(六)——梯度弥散、爆炸和过拟合

一、梯度弥散和爆炸1. 梯度弥散的解释梯度弥散的问题很大程度上是来源于激活函数的“饱和”。因为在后向传播的过程中仍然需要计算激活函数的导数，所以一旦卷积核的输出落入函数的饱和区，它的梯度将变得非常小。使用反向传播算法传播梯度的时候，随着传播深度的增加，梯度的幅度会急剧减小，会导致浅层神经元的权重更新非常缓慢，不能有效学习。这样一来，深层模型也就变成了前几层相对固定，只能改变最后几层的浅层模型。梯度
复制链接

扫一扫

专栏目录

manong_wxd CSDN认证博客专家 CSDN认证企业博客

码龄9年

34: 原创

73万+: 周排名

182万+: 总排名

38万+: 访问

: 等级

2663: 积分

315: 粉丝

116: 获赞

35: 评论

458: 收藏

私信

关注

热门文章

分类专栏

PyTorch 13篇
CUDA 5篇
python 1篇
深度学习 11篇
机器学习 3篇
论文翻译 1篇

最新评论

PyTorch学习总结(三)——ONNX
AI似懂非懂: 哎，真不是人能看懂的东西
PyTorch学习总结(七)——自动求导机制
鹰立如睡: 这是输入一条数据，如果输入一个batch呢，用哪条数据求梯度？
莫烦PyTorch学习笔记(二)——回归
唯爱……: x的平方
深度学习总结(一)——参数初始化
Deng_zhilin: 您好，我想请教一下为什么初始化参数要用到权重的size来计算分布范围呢? 例如:[code=python] def reset_parameters(self): # 参数随机初始化函数 stdv = 1. / math.sqrt(self.weight.size(1)) self.weight.data.uniform_(-stdv, stdv) # weight在区间(-stdv, stdv)之间均匀分布随机初始化 if self.bias is not None: self.bias.data.uniform_(-stdv, stdv) [/code]
PyTorch学习总结(三)——ONNX
weixin_41157922: 请问onnx支持torch.nn.PixelShuffle吗？谢谢。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。