参数:
参数normalized_shape代表需要标准化的维度,比如输入的tensor维度为(2, 2, 3),那么如果normalized_shape输入为3,则对最后一维进行标准化,如果输入为[2, 3],则对最后两维进行标准化。
公式里的ε 。
确定需不需要标准化后进行仿射变换,也就是乘上γ和β
torch中的layernorm使用:
import torch
import torch.nn
hidden_size = 3
layer_norm_eps = 1e-5
#带参数
layernorm = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
#不带参数
layernorm2 = nn.LayerNorm(hidden_size, eps=layer_norm_eps, elementwise_affine=False)
#shape=(2, 2, 3)
hidden_states = torch.tensor([[[1, 2, 3],[2, 3, 1]],[[3, 1, 2],[4, 2, 5]]]
hidden_states = layernorm(hidden_states)
如果需要自定义γ和β:
#gamma和beta与输入形状相同
gamma = torch.ones_like(hidden_states)
beta = torch.ones_like(hidden_states)
hidden_states = gamma*hidden_states+beta