torch笔记十八 | 让训练更稳定

最新推荐文章于 2023-12-10 23:31:08 发布

Hygge MrYang

最新推荐文章于 2023-12-10 23:31:08 发布

阅读量278

点赞数 1

分类专栏： torch笔记文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38276972/article/details/116275416

版权

torch笔记专栏收录该内容

24 篇文章 10 订阅

订阅专栏

文章目录

1. 数值稳定性
2. 让训练更加稳定
3. 其他的注意问题

1. 数值稳定性

计算某层权重参数关于损失函数的梯度的时候，需要使用链式法则，有可能出现梯度爆炸和梯度消失现象。

梯度爆炸：例如使用ReLU激活函数，当x>1的时候，导数就是1。当权重比较大的时候，当权重比较大的时候，和1相乘会得到保留。导致的问题：值超出值域，16位浮点数尤为重要（数值空间6e-5~6e4）；对学习率敏感。

梯度消失：例如使用Sigmoid作为激活函数，导数在0附近大一些，其他地方都很小。当权重比较大的时候，导数就会变很小，和权重相乘就会很小。问题：梯度值变成0；训练没有进展；仅仅顶层训练的较好，无法让网络更深。

总结：当数值过大或者过小都会导致数值问题，即梯度爆炸和梯度消失。该问题常出现在深度网络中，因为会对n个数累乘。

2. 让训练更加稳定

目标：让梯度值在合理的范围内。

常见缓解方法：

将乘法变加法。ResNet、LSTM
归一化。梯度归一化（不管梯度多大，都归一化到一定的区域），梯度裁剪（梯度大于5就变成5，小于-5就变成-5）
合理的权重初始和激活函数。目标：让每层的输出和每层的梯度服从均值为0，方差为固定数的一个随机变量。权重初始化，可以使用 Xavier 初始化方法，确定方差的具体数值。激活函数，选择tanh和ReLU都没有问题，如果选择Sigmoid，要做一下调整，例如：4Xsigmoid(x)-2。

3. 其他的注意问题

nan, inf 的产生和解决。nan(not a number，非数)，通常是因为分母出现了0；inf(超出浮点数的表示范围，溢出)，通常是因为 lr 调的太大或者权重初始值就很大。解决方法：合理初始化权重，方差小一些、激活函数、调小学习率。
权重在每个batch更新一次。
激活函数推荐选择ReLU，简单。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
torch笔记十八 | 让训练更稳定

梯度爆炸和梯度消失
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。