简单粗暴PyTorch之权值初始化方法与重要性

最新推荐文章于 2024-07-08 08:04:43 发布

刘大鸭

最新推荐文章于 2024-07-08 08:04:43 发布

阅读量677

点赞数 1

分类专栏：简单粗暴Pytorch学习文章标签： pytorch

本文链接：https://blog.csdn.net/qq_36642243/article/details/108011008

版权

本文探讨了在PyTorch中权重初始化的重要性，如何避免梯度消失和爆炸。详细介绍了Xavier和Kaiming初始化方法，包括均匀分布和正态分布的应用，以及在不同激活函数下的调整。

摘要由CSDN通过智能技术生成

权值初始化

一、梯度消失与爆炸
- 1.1 梯度爆炸
- 1.2 梯度消失
二、Xavier方法与Kaiming方法
- 2.1 Xavier初始化，饱和函数
- 2.2 Kaiming初始化，非饱和函数
三、十种初始化方法

一、梯度消失与爆炸

不恰当的权值初始化，可能带来梯度消失与爆炸。
在这里插入图片描述
$\begin{aligned} \mathrm{H}_{2}=& \mathrm{H}_{1} * \mathrm{W}_{2} \\ \Delta \mathrm{W}_{2} &=\frac{\partial \mathrm{Loss}}{\partial \mathrm{W}_{2}}=\frac{\partial \mathrm{Loss}}{\partial \mathrm{out}} * \frac{\partial \mathrm{out}}{\partial \mathrm{H}_{2}} * \frac{\partial \mathrm{H}_{2}}{\partial \mathrm{w}_{2}} \\ &=\frac{\partial \mathrm{Loss}}{\partial \mathrm{out}} * \frac{\partial \mathrm{out}}{\partial \mathrm{H}_{2}} * \mathrm{H}_{1} \end{aligned}$
H1趋向于0，W2梯度消失
H1趋向于无穷，W2梯度梯度爆炸

避免梯度消失、梯度爆炸，就要控制输出层的输出值的范围，不能太大或者太小

1.1 梯度爆炸

1、0均值，1标准差

class MLP(nn.Module):
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)
            # x = torch.tanh(x)
            # x = torch.relu(x)
            # 打印output为无穷时所在
            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):
                print("output is nan in {} layers".format(i))
                break
        return x
    # 参数初始化
    def initialize(self):

最低0.47元/天解锁文章

刘大鸭

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
简单粗暴PyTorch之权值初始化方法与重要性

权值初始化一、梯度消失与爆炸二、Xavier方法与Kaiming方法三、常用初始化方法一、梯度消失与爆炸不恰当的权值初始化，可能带来梯度消失与爆炸。H2=H1∗W2ΔW2=∂Loss∂W2=∂Loss∂out∗∂out∂H2∗∂H2∂w2=∂Loss∂out∗∂out∂H2∗H1\begin{aligned}\mathrm{H}_{2}=& \mathrm{H}_{1} * \mathrm{W}_{2} \\\Delta \mathrm{W}_{2} &=\frac{\parti
复制链接

扫一扫

专栏目录