[pytorch] LN, BN深入分析

最新推荐文章于 2023-04-15 15:17:41 发布

放飞自我的Coder

最新推荐文章于 2023-04-15 15:17:41 发布

阅读量94

点赞数

分类专栏： # pytorch 文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/qq_39749966/article/details/129842132

版权

pytorch 专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了LayerNorm和BatchNorm在深度学习模型中的作用，特别是LayerNorm如何通过计算每个分层的均值和方差来标准化输入数据，以及在处理变异性时与BatchNorm的区别。通过示例展示了LayerNorm的实现过程，包括计算标准化后的特征向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LayerNorm深入分析

均值和方差是各自的，但是映射是分层的

ln = nn.LayerNorm(6)
x = torch.randn(1, 1, 6)
print(ln.state_dict())
print(x)
print(ln(x))

std, mean = torch.std_mean(x, dim=2, keepdim=True, unbiased=False)
x = (x - mean) / (std + 1e-5)
print(x)

输出

OrderedDict([('weight', tensor([1., 1., 1., 1., 1., 1.])), ('bias', tensor([0., 0., 0., 0., 0., 0.]))])
tensor([[[ 6.0541e-01,  5.5038e-04, -3.6288e-01, -7.0546e-01,  2.9306e-01,
          -6.5057e-01]]])
tensor([[[ 1.5400,  0.2847, -0.4695, -1.1805,  0.8918, -1.0666]]],
       grad_fn=<NativeLayerNormBackward0>)
tensor([[[ 1.5401,  0.2847, -0.4695, -1.1805,  0.8918, -1.0666]]])