在深度学习中,常见的权重初始化方法包括零初始化、随机初始化、Xavier(Glorot)初始化、He初始化、正交初始化、Lecun初始化等。这些方法在不同的场景和网络结构下有不同的效果。以下是这些方法的简介及其在PyTorch中的实现:
1. 零初始化(Zero Initialization)
将所有权重初始化为零,但这种方法通常不使用,因为会导致神经元学习相同的特征,无法有效地训练模型。
import torch.nn as nn
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
nn.init.zeros_(self.fc.weight) # 零初始化
2. 随机初始化(Random Initialization)
将权重初始化为随机值。
import torch.nn.init as init
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
init.uniform_(self.fc.weight, -0.1, 0.1) # 随机初始化
3. Xavier(Glorot)初始化
适用于sigmoid和tanh激活函数,目的是让权重在每层之间的梯度保持相同的方差。
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
init.xavier_uniform_(self.fc.weight) # Xavier/Glorot初始化
4. He初始化
适用于ReLU及其变种激活函数,目的是让ReLU激活函数的输出保持方差的一致性。
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
init.kaiming_normal_(self.fc.weight, mode='fan_in', nonlinearity='relu') # He初始化
5. 正交初始化(Orthogonal Initialization)
将权重矩阵初始化为正交矩阵,可以更好地保持输入数据的方差。
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
init.orthogonal_(self.fc.weight) # 正交初始化
6. Lecun初始化
适用于sigmoid和tanh激活函数。
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
init.normal_(self.fc.weight, 0, 1 / np.sqrt(self.fc.in_features)) # Lecun初始化
7. 正态分布初始化(Normal Initialization)
将权重初始化为均值和标准差指定的正态分布。
class MyModel(nn.Module):
def __init__(self):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
init.normal_(self.fc.weight, mean=0.0, std=0.02) # 正态分布初始化
PyTorch完整示例
下面是一个完整的示例,展示了如何在PyTorch中实现并应用不同的权重初始化方法:
import torch
import torch.nn as nn
import torch.nn.init as init
import numpy as np
class MyModel(nn.Module):
def __init__(self, init_type='xavier'):
super(MyModel, self).__init__()
self.fc = nn.Linear(784, 128)
self._initialize_weights(init_type)
def _initialize_weights(self, init_type):
if init_type == 'zero':
init.zeros_(self.fc.weight)
elif init_type == 'random':
init.uniform_(self.fc.weight, -0.1, 0.1)
elif init_type == 'xavier':
init.xavier_uniform_(self.fc.weight)
elif init_type == 'he':
init.kaiming_normal_(self.fc.weight, mode='fan_in', nonlinearity='relu')
elif init_type == 'orthogonal':
init.orthogonal_(self.fc.weight)
elif init_type == 'lecun':
init.normal_(self.fc.weight, 0, 1 / np.sqrt(self.fc.in_features))
elif init_type == 'normal':
init.normal_(self.fc.weight, mean=0.0, std=0.02)
else:
raise ValueError(f"Unknown initialization type: {init_type}")
def forward(self, x):
return self.fc(x)
# 示例
model = MyModel(init_type='he')
在这个示例中,通过传递不同的init_type
参数,可以选择不同的权重初始化方法。