Batch Normalization、Layer Normalization、group Normalization之间的区别

本文探讨了BatchNormalization在深度学习中的作用,包括其归一化原理、优点(如加速训练和参数稳定性)、参数更新以及在神经网络中的应用。同时介绍了LayerNormalization和GroupNormalization作为改进方法,尤其是在自然语言处理中的应用,强调了它们在处理batch内样本交互上的区别。
摘要由CSDN通过智能技术生成

目录

Batch Normalization

Layer Normalization

Group Normalization


Batch Normalization


 Batch normalization

注意:对于batch normalization而言,针对输入的所有样本,进行求均值和方差,之后对每一个样本进行均值和方差的求解。避免每一层归一化后都相同,通过伽马和贝塔进行简单的线性变化。

在每一层网络中使用BN归一化,我们可以保证每一层运算的结果都是相似的,之后可以使用较大的学习率,参数初始化不敏感,加快网络训练。

反向传播更新的参数:四个,系数矩阵w,偏置b,线性变换的系数γ和β,但是在归一化过程中,需要减掉均值,因此偏置b不需要学习,因此需要学习的参数总共有3个。

每一层神经元的含义:

注意:每一层神经元包含三种运算,分布归一化和非线性激活的顺序可以变换。

缺陷及改进方法:

Layer Normalization

注意:一般解决自然语言处理里面的问题=

Group Normalization

注意:这种形式的归一化不涉及到一个batch中的两个样本之间的交互!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值