深度学习之BatchNormalization的作用

最新推荐文章于 2025-02-25 22:18:10 发布

专注于计算机视觉的AndyJiang

最新推荐文章于 2025-02-25 22:18:10 发布

阅读量7.1k

点赞数 4

分类专栏：深度学习文章标签：深度学习卷积神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/andyjkt/article/details/106015998

版权

深度学习专栏收录该内容

53 篇文章

订阅专栏

本文深入解析BatchNormalization在神经网络训练中的作用，阐述其如何通过规范化手段解决梯度消失问题，加快学习收敛速度。并介绍了Pytorch中BatchNorm1d和BatchNorm2d的使用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BatchNormalization的作用

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

BN层的作用是把一个batch内的所有数据，从不规范的分布拉到正态分布。这样做的好处是使得数据能够分布在激活函数的敏感区域，敏感区域即为梯度较大的区域，因此在反向传播的时候能够较快反馈误差传播。

Batch Normalization

在这里插入图片描述

使⽤批量归一化训练时，我们可以将批量大小设得大一点，从而使批量内样本的均值和方差的计算都较为准确。将训练好的模型用于预测时，我们希望模型对于任意输入都有确定的输出。因此，单个样本的输出不应取决于批量归一化所需要的随机小批量中的均值和方差。一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差，并在预测时使用它们得到确定的输出。可⻅，和丢弃层一样，批量归⼀化层在训练模式和预测模式下的计算结果也是不一样的。
Pytorch 中 nn 模块定义的 BatchNorm1d 和BatchNorm2d 类使用起来更加简单，二者分别用于全连接层和卷积层，都需要指定输入的num_features 参数值。

梯度消失

在神经网络中，当前面隐藏层的学习速率低于后面隐藏层的学习速率，即随着隐藏层数目的增加，分类准确率反而下降了。这种现象叫做消失的梯度问题。

激活函数的原因，由于梯度求导的过程中梯度非常小，无法有效反向传播误差，造成梯度消失的问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。