pytorch 之 torch.nn.functional.LayerNorm()

最新推荐文章于 2024-02-20 16:21:05 发布

阿_牛

最新推荐文章于 2024-02-20 16:21:05 发布

阅读量1.2k

点赞数

分类专栏： pytorch 文章标签： pytorch 深度学习人工智能

原文链接：https://blog.csdn.net/weixin_39228381/article/details/107939602

版权

pytorch 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

torch.nn.LayerNorm(
normalized_shape: Union[int, List[int], torch.Size],
eps: float = 1e-05,
elementwise_affine: bool = True)
————————————————

LayerNorm前向传播（以normalized_shape为一个int举例）

如下所示:

输入数据的shape是(3, 4)

此时normalized_shape传入4（输入维度最后一维的size）

则沿着最后一维（沿着最后一维的意思就是对最后一维的数据进行操作）求和，并用这两个结果把batch沿着最后一维归一化，使其均值为0，方差为1。归一化公式用到了eps()，即。
tensor = torch.FloatTensor([[1, 2, 4, 1],
[6, 3, 2, 4],
[2, 4, 6, 1]])

此时，（有偏样本方差），归一化后的值如下，

举例说明：第0行第2列的数字4，减去第0行的均值2.0等于2，然后除以即2/1.224749≈1.6330。
[[-0.8165, 0.0000, 1.6330, -0.8165],
[ 1.5213, -0.5071, -1.1832, 0.1690],
[-0.6509, 0.3906, 1.4321, -1.1717]]

如果elementwise_affine==True，则对归一化后的batch进行仿射变换，即乘以模块内部的weight（初值是[1., 1., 1., 1.]）然后加上模块内部的bias（初值是[0., 0., 0., 0.]），这两个变量会在反向传播时得到更新。

如果elementwise_affine==False，则LayerNorm中不含有weight和bias两个变量，只做归一化，不会进行仿射变换。
总结

在使用LayerNorm时，通常只需要指定normalized_shape就可以了。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阿_牛 CSDN认证博客专家 CSDN认证企业博客

码龄8年

62: 原创

7万+: 周排名

19万+: 总排名

72万+: 访问

: 等级

1081: 积分

45: 粉丝

106: 获赞

38: 评论

460: 收藏

私信

关注

热门文章

分类专栏

Text2SQL 14篇
对话机器人 11篇
见闻 3篇
Python后端 20篇
笔记 6篇
pytorch 3篇
深度学习 3篇
NLU 7篇
LeetCode笔记 3篇
数学之美 1篇
python+NLP 4篇
数据结构和算法 3篇
机器学习 11篇

最新评论

万字综述Text to SQL技术
yy666624: 请问是哪篇论文
文本匹配专题-1：任务和数据集介绍
qq_51154356: 博主，你好，我想问一下，模型大模型有哪些无法解决的问题
macbook air(M1 2020)安装graphviz和python pip或conda 安装pygraphviz
亦织: 强!!!可以了
岳阳长沙深圳市区中考和高考难度对比
看到我请叫我学习655: 啊
高斯分布、多维高斯分布、各向同性的高斯分布及多元高斯分布之间的KL散度
忍山: 采用以下方程从均值为 μ 标准差为 σ 的高斯分布中采样（再参数化技巧）啥意思？答：采用"再参数化技巧"（Reparameterization Trick），可以从均值为μ和标准差为σ的高斯分布中采样样本，这是深度学习中常用的一种技巧。通常，从高斯分布中采样样本是通过使用均值μ和标准差σ来生成随机数，然后使用这些随机数来构建采样样本。然而，在神经网络中，我们通常希望在反向传播时能够计算梯度，而随机数生成通常是不可导的，这会导致梯度无法传递到网络的参数。再参数化技巧的关键思想是将采样过程分为两步： 1. 从标准正态分布（均值为0，标准差为1的高斯分布）中采样一个随机数\(ε\)。 2. 使用这个随机数\(ε\)和给定的均值μ和标准差σ来计算采样样本： \[z = μ + σε\] 这样，我们通过在第一步中从标准正态分布中采样，将随机性与参数μ和σ分离开来。这使得整个采样过程变得可导，因为μ和σ是固定的参数，不依赖于随机数ε。这个技巧的好处是，在神经网络中，我们可以在反向传播时计算关于μ和σ的梯度，而不必担心随机数生成的不可导性。因此，再参数化技巧常用于训练深度生成模型，如变分自编码器（VAE）和生成对抗网络（GAN），以及其他需要从高斯分布中采样样本的应用中。这使得训练这些模型更加稳定和有效。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。