李沐动手学深度学习第四章-4.8. 数值稳定性和模型初始化

最新推荐文章于 2024-01-27 18:14:45 发布

nousefully

最新推荐文章于 2024-01-27 18:14:45 发布

阅读量542

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/nousefully/article/details/126787418

版权

我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。

初始化方案的选择在神经网络学习中起着举足轻重的作用，它对保持数值稳定性至关重要。

1. 梯度消失和梯度爆炸

1.1. 梯度消失

曾经sigmoid函数1/(1+exp⁡(−x))（ 4.1节提到过）很流行，因为它类似于阈值函数。由于早期的人工神经网络受到生物神经网络的启发，神经元要么完全激活要么完全不激活（就像生物神经元）的想法很有吸引力。然而，它却是导致梯度消失问题的一个常见的原因，

让我们仔细看看sigmoid函数为什么会导致梯度消失？

%matplotlib inline
import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
         legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

正如你所看到的，当sigmoid函数的输入很大或是很小时，它的梯度都会消失。

1.2. 梯度爆炸

相反，梯度爆炸可能同样令人烦恼。为了更好地说明这一点，我们生成100个高斯随机矩阵，并将它们与某个初始矩阵相乘。对于我们选择的尺度（方差σ2=1），矩阵乘积发生爆炸。当这种情况是由于深度网络的初始化所导致时，我们没有机会让梯度下降优化器收敛。

M = torch.normal(0, 1, size=(4,4))
print('一个矩阵 \n',M)
for i in range(100):
    M = torch.mm(M,torch.normal(0, 1, size=(4, 4)))

print('乘以100个矩阵后\n', M)