（13）学习笔记：动手深度学习（数值稳定性和模型初始化）

卡拉比丘流形

于 2022-10-23 13:01:25 发布

阅读量731

点赞数

分类专栏：深度学习文章标签：深度学习学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46378251/article/details/127472581

版权

深度学习专栏收录该内容

52 篇文章 12 订阅

订阅专栏

1.数值稳定性的两个常见问题

在这里插入图片描述

2.梯度爆炸与梯度消失

在这里插入图片描述

在这里插入图片描述

3.解决方法

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4. 代码

曾经sigmoid函数 $\exp(-x))$ （ :numref:sec_mlp提到过）很流行，因为它类似于阈值函数。
由于早期的人工神经网络受到生物神经网络的启发，神经元要么完全激活要么完全不激活（就像生物神经元）的想法很有吸引力。
然而，它却是导致梯度消失问题的一个常见的原因。

%matplotlib inline
import torch
import d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
         legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

在这里插入图片描述
相反，梯度爆炸可能同样令人烦恼。
为了更好地说明这一点，我们生成100个高斯随机矩阵，并将它们与某个初始矩阵相乘。
对于我们选择的尺度（方差 $\sigma^2=1$ ），矩阵乘积发生爆炸。
当这种情况是由于深度网络的初始化所导致时，我们没有机会让梯度下降优化器收敛。

M = torch.normal(0, 1, size=(4,4))
print('一个矩阵 \n',M)
for i in range(100):
    M = torch.mm(M,torch.normal(0, 1, size=(4, 4)))

print('乘以100个矩阵后\n', M)

在这里插入图片描述

5.总结

在这里插入图片描述

5.问题

1.在训练的过程中，如果网络层的输出的中间层特征元素的值突然变成nan了，是发生了梯度爆炸了吗?还是有什么可能的原因?
是的
2.老师，通过把每一层输出的均值和方差做限制，是不是可以理解为限制各层输出值出现极大或极小的异常值?
可以

卡拉比丘流形

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（13）学习笔记：动手深度学习（数值稳定性和模型初始化）

1.在训练的过程中，如果网络层的输出的中间层特征元素的值突然变成nan了，是发生了梯度爆炸了吗?还是有什么可能的原因?是的2.老师，通过把每一层输出的均值和方差做限制，是不是可以理解为限制各层输出值出现极大或极小的异常值?可以。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

卡拉比丘流形 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。