深度学习中常用的权重初始化方法以及Pytorch实现

yiruzhao

于 2024-06-24 10:13:57 发布

阅读量502

点赞数 10

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/SisterRu/article/details/139917689

版权

在深度学习中，常见的权重初始化方法包括零初始化、随机初始化、Xavier（Glorot）初始化、He初始化、正交初始化、Lecun初始化等。这些方法在不同的场景和网络结构下有不同的效果。以下是这些方法的简介及其在PyTorch中的实现：

1. 零初始化（Zero Initialization）

将所有权重初始化为零，但这种方法通常不使用，因为会导致神经元学习相同的特征，无法有效地训练模型。

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        nn.init.zeros_(self.fc.weight)  # 零初始化

2. 随机初始化（Random Initialization）

将权重初始化为随机值。

import torch.nn.init as init

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        init.uniform_(self.fc.weight, -0.1, 0.1)  # 随机初始化

3. Xavier（Glorot）初始化

适用于sigmoid和tanh激活函数，目的是让权重在每层之间的梯度保持相同的方差。

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        init.xavier_uniform_(self.fc.weight)  # Xavier/Glorot初始化

4. He初始化

适用于ReLU及其变种激活函数，目的是让ReLU激活函数的输出保持方差的一致性。

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        init.kaiming_normal_(self.fc.weight, mode='fan_in', nonlinearity='relu')  # He初始化

5. 正交初始化（Orthogonal Initialization）

将权重矩阵初始化为正交矩阵，可以更好地保持输入数据的方差。

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        init.orthogonal_(self.fc.weight)  # 正交初始化

6. Lecun初始化

适用于sigmoid和tanh激活函数。

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        init.normal_(self.fc.weight, 0, 1 / np.sqrt(self.fc.in_features))  # Lecun初始化

7. 正态分布初始化（Normal Initialization）

将权重初始化为均值和标准差指定的正态分布。

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        init.normal_(self.fc.weight, mean=0.0, std=0.02)  # 正态分布初始化

PyTorch完整示例

下面是一个完整的示例，展示了如何在PyTorch中实现并应用不同的权重初始化方法：

import torch
import torch.nn as nn
import torch.nn.init as init
import numpy as np

class MyModel(nn.Module):
    def __init__(self, init_type='xavier'):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(784, 128)
        self._initialize_weights(init_type)

    def _initialize_weights(self, init_type):
        if init_type == 'zero':
            init.zeros_(self.fc.weight)
        elif init_type == 'random':
            init.uniform_(self.fc.weight, -0.1, 0.1)
        elif init_type == 'xavier':
            init.xavier_uniform_(self.fc.weight)
        elif init_type == 'he':
            init.kaiming_normal_(self.fc.weight, mode='fan_in', nonlinearity='relu')
        elif init_type == 'orthogonal':
            init.orthogonal_(self.fc.weight)
        elif init_type == 'lecun':
            init.normal_(self.fc.weight, 0, 1 / np.sqrt(self.fc.in_features))
        elif init_type == 'normal':
            init.normal_(self.fc.weight, mean=0.0, std=0.02)
        else:
            raise ValueError(f"Unknown initialization type: {init_type}")

    def forward(self, x):
        return self.fc(x)

# 示例
model = MyModel(init_type='he')

在这个示例中，通过传递不同的init_type参数，可以选择不同的权重初始化方法。

yiruzhao

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习中常用的权重初始化方法以及Pytorch实现

在深度学习中，常见的权重初始化方法包括零初始化、随机初始化、Xavier（Glorot）初始化、He初始化、正交初始化、Lecun初始化等。这些方法在不同的场景和网络结构下有不同的效果。
复制链接

扫一扫