Layer/batch Normalization(归一化泛讲）

最新推荐文章于 2024-07-20 16:58:57 发布

是攸宁啊

最新推荐文章于 2024-07-20 16:58:57 发布

阅读量1.2k

点赞数 25

文章标签： batch 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Msc30839573/article/details/135620375

版权

五种归一化，在这里我们讨论前两种

一、概念

Batch Normalization（批标准化）和Layer Normalization（层标准化）都是神经网络中的标准化技术，它们对数据进行归一化处理以加速训练和提高模型的稳定性。

1.Batch Normalization

是对每个batch的数据进行归一化处理，通过计算每个神经元的均值和方差，将数据规范化到均值为0、方差为1的分布。这样可以加速模型的收敛速度，提高模型的泛化能力。Batch Normalization主要用于卷积神经网络（CNN）等需要大量数据预处理的模型中。

是第l层的第i个样本（对一个minibatch内所有样本的同一维度去做归一化）

${a_{i}}^{l}$ 是第l层的第i个样本（对一个minibatch内所有样本的同一维度去做归一化）

2.Layer Normalization

则是对单个神经元或一个特征映射的所有神经元进行归一化处理，综合考虑一个层内所有维度的输入，计算该层的平均输入值和输入方差，然后用同一个规范化操作来转换各个维度的输入。Layer Normalization主要用于循环神经网络（RNN）和Transformer等需要序列数据的模型中，因为它可以更好地处理序列数据的特性。

对于每一层所有神经元，共享同样的均值和标准差，但每个样本有各自的参数。

如batchsize=10, 我们会有10套均值和标准差

只和神经元的数量有关，与batch size的大小无关

3.layer norm用到RNN中

1.层归一化对于每个时刻进行单独的归一化，归一化的参数跟神经元的个数有关，与batchsize大小无关

2.不同时刻所用到的增益和偏置是共享的，所以不用担心变长问题

${a_{i}}^{t}$ 是第t时刻的第i个隐藏神经元

总的来说，Batch Normalization和Layer Normalization都是为了解决神经网络中数据分布不一致的问题，它们的使用取决于具体的模型和任务需求

二、代码

1.Batch norm

(1)调用官方API

使用的函数为torch.nn.BatchNorm1d()

代码实现：

因为要求输入的参数为(N,C,L)即（批大小，特征维度，序列长度），所以在第10行将L，C位置进行了交换，再传入函数

（2）手写batch_norm

算均值/方差的时候是对minibatch,时间长度两个维度进行计算,返回的是一个C维（特征维度）的数据，所以要将其扩两维(使用keepdim = True来保证输入和输出维度一样）w

bn_mean = inputx.mean(dim=(0,1), keepdim = True)

bn_std = inputx.std(dim=(0,1), unbiased=False, keepdim = True)

结果（手写和调用API结果一致）：

2.Layer norm

(1)调用layer norm API

接受的input只需要保证batch_size在第一纬度就好，不用再进行转置

(2)手写

对于每个样本的每个时刻（per sample, per layer)，对embedding求均值和标准差

ls_mean = inputx.mean(dim = -1, keepdim = True)

两种方法的结果

总体代码

关注

25
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

是攸宁啊 CSDN认证博客专家 CSDN认证企业博客

码龄3年

39: 原创

54万+: 周排名

9万+: 总排名

6万+: 访问

: 等级

759: 积分

230: 粉丝

337: 获赞

8: 评论

424: 收藏

私信

关注

热门文章

分类专栏

JAVA 9篇
C 5篇
蓝桥杯-2022 4篇
Linux 1篇

最新评论

论文&实验 Large Language Models AreZero-Shot Time Series Forecasters
apple_53817263: 你好，请问一下要如何连接大模型接口呢？
大模型微调（fine-tunning)
运算者: 您好，请问文章末尾的链接是什么网站的链接啊，失效了
Transformer&&GPT2模型结构(nanoGPT)➕代码（个人自学）
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题中提到的GPT2模型结构和代码学习，展示了您对人工智能领域的深入研究和努力学习。我对您在个人自学方面的投入表示钦佩。作为下一步的创作建议，您可以思考探索一些与GPT2模型相关的实际应用案例，例如在自然语言处理或生成文本方面的实用应用。期待您在未来的博客中分享更多有趣且有价值的内容！
C语言数组的结尾字符
ymchips: 我的怎么没有这个问题
C语言数组的结尾字符
Joel ji: 也就说整型数组并不需要加上结束符，而字符数组可以手动添加"\0"作为结束符。给字符数组进行赋值时，要预留一个字节大小，系统会默认在字符数组结尾添加”\0"作为结束语。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。