pytorch默认初始化_Pytorch的默认初始化分布 nn.Embedding.weight初始化分布

最新推荐文章于 2024-07-01 11:07:14 发布

weixin_39846186

最新推荐文章于 2024-07-01 11:07:14 发布

阅读量1k

点赞数

文章标签： pytorch默认初始化

本文链接：https://blog.csdn.net/weixin_39846186/article/details/111822765

版权

PyTorch中的nn.Embedding默认使用标准正态分布（均值0，方差1）来初始化weight。通过查看源代码和简单的验证，可以确认weight的初始化分布符合$N(0, 1)$。此外，讨论了torch.Tensor、torch.randn等其他初始化方法。" 78107008,1510383,解决Android UnsatisfiedLinkError崩溃问题,"['Android开发', 'Java.lang.UnsatisfiedLinkError', 'JNI']

摘要由CSDN通过智能技术生成

一、nn.Embedding.weight初始化分布

nn.Embedding.weight随机初始化方式是标准正态分布

，即均值$\mu=0$，方差$\sigma=1$的正态分布。

论据1——查看源代码

## class Embedding具体实现(在此只展示部分代码)

import torch

from torch.nn.parameter import Parameter

from .module import Module

from .. import functional as F

class Embedding(Module):

def __init__(self, num_embeddings, embedding_dim, padding_idx=None,

max_norm=None, norm_type=2, scale_grad_by_freq=False,

sparse=False, _weight=None):

if _weight is None:

self.weight = Parameter(torch.Tensor(num_embeddings, embedding_dim))

self.reset_parameters()

else:

assert list(_weight.shape) == [num_embeddings, embedding_dim], \

'Shape of weight does not match num_embeddings and embedding_dim'

self.weight = Parameter(_weight)

def reset_parameters(self):

self.weight.data.normal_(0, 1)

if self.padding_idx is not None:

self.weight.data[self.padding_idx].fill_(0)

Embedding这个类有个属性weight，它是torch.nn.parameter.Parameter类型的，作用就是存储真正的word embeddings。如果不给weight赋值，Embedding类会自动给他初始化，看上述代码第6~8行，如果属性weight没有手动赋值，则会定义一个torch.nn.parameter.Parameter对象，然后对该对象进行reset_parameters()，看第21行，对self.weight先转为Tensor在对其进行normal_(0, 1)(调整为$N(0, 1)$正态分布)。所以nn.Embeddig.weight默认初始化方式就是N(0, 1)分布，即均值$\mu=0$，方差$\sigma=1$的标准正态分布。

论据2——简单验证nn.Embeddig.weight的分布

下面将做的是验证nn.Embeddig.weight某一行词向量的均值和方差，以便验证是否为标准正态分布。

注意：验证一行数字的均值为0，方差为1，显然不能说明该分布就是标准正态分布，只能是其必要条件，而不是充分条件，要想真正检测这行数字是不是正态分布，在概率论上有专门的较为复杂的方法，请查看概率论之假设检验。

import torch.nn as nn

# dim越大，均值、方差越接近0和1

dim = 800000

# 定义了一个(5, dim)的二维embdding

# 对于NLP来说，相当于是5个词，每个词的词向量维数是dim

# 每个词向量初始化为正态分布 N(0,1)(待验证)

embd = nn.Embedding(5, dim)

# type(embd.weight) is Parameter

# type(embd.weight.data) is Tensor