Batch Normalization 详细介绍

司南锤

于 2024-09-08 20:20:36 发布

阅读量897

点赞数 33

分类专栏：数学基础文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52964132/article/details/142032351

版权

数学基础专栏收录该内容

45 篇文章 1 订阅

订阅专栏

Batch Normalization（批量归一化，简称BatchNorm或BN）是一种用于深度神经网络的技术，旨在提高训练速度、稳定性和整体性能。由Sergey Ioffe和Christian Szegedy在2015年提出，并迅速成为深度学习中的标准技术之一。

1. 基本概念

BatchNorm的核心思想是在神经网络的每一层输入数据上进行归一化处理，使其均值接近0，方差接近1。这样做的好处是：

加速训练：通过减少内部协变量偏移（Internal Covariate Shift），即每一层输入分布的变化，BatchNorm使得网络参数的更新更加稳定，从而可以使用更大的学习率，加速训练过程。
提高模型的泛化能力：BatchNorm引入了少量的噪声，类似于Dropout的效果，有助于防止过拟合。
简化网络设计：BatchNorm使得网络对初始化的敏感性降低，可以使用更深的网络结构。

2. BatchNorm的计算过程

假设有一个批量数据 B = {x_1, x_2, ..., x_m}，其中 m 是批量大小，x_i 是输入数据。BatchNorm的计算过程如下：

计算批量均值：
$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$
计算批量方差：
$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$
归一化：
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
其中，\epsilon 是一个很小的常数（通常为 1e-5），用于防止分母为零。
缩放和平移：
$y_i = \gamma \hat{x}_i + \beta$
其中，\gamma 和 \beta 是可学习的参数，分别用于缩放和平移归一化后的数据。

3. BatchNorm的优点

加速训练：通过减少内部协变量偏移，BatchNorm允许使用更大的学习率，从而加速训练过程。
提高模型的泛化能力：BatchNorm引入了少量的噪声，类似于Dropout的效果，有助于防止过拟合。
简化网络设计：BatchNorm使得网络对初始化的敏感性降低，可以使用更深的网络结构。
稳定性：BatchNorm使得网络在训练过程中更加稳定，减少了梯度消失和梯度爆炸的问题。

4. BatchNorm的缺点

依赖于批量大小：BatchNorm的效果在批量大小较小时会受到影响，因为批量均值和方差的估计可能不够准确。
不适合RNN：在循环神经网络（RNN）中，BatchNorm的使用较为复杂，因为RNN的输入是时间序列数据，批量大小在不同时间步可能不同。

5. BatchNorm的变种

Layer Normalization (LN)：适用于RNN等序列模型，对每个样本的所有特征进行归一化，而不是对批量中的所有样本进行归一化。
Instance Normalization (IN)：主要用于图像生成任务，对每个样本的每个通道进行归一化。
Group Normalization (GN)：介于Layer Normalization和Instance Normalization之间，将通道分组进行归一化。

6. BatchNorm在实际应用中的使用

卷积神经网络（CNN）：在CNN中，BatchNorm通常应用于卷积层之后，激活函数之前。
全连接层：在全连接层中，BatchNorm同样应用于激活函数之前。

7. 总结

Batch Normalization是一种强大的技术，通过在每一层输入数据上进行归一化处理，显著提高了深度神经网络的训练速度、稳定性和泛化能力。尽管有一些局限性，但在大多数情况下，BatchNorm仍然是深度学习中的标准组件之一。

关注

33
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
Batch Normalization 详细介绍

Batch Normalization是一种强大的技术，通过在每一层输入数据上进行归一化处理，显著提高了深度神经网络的训练速度、稳定性和泛化能力。尽管有一些局限性，但在大多数情况下，BatchNorm仍然是深度学习中的标准组件之一。
复制链接

扫一扫

专栏目录

司南锤 CSDN认证博客专家 CSDN认证企业博客

码龄4年

251: 原创

2949: 周排名

7840: 总排名

14万+: 访问

: 等级

4181: 积分

1769: 粉丝

1628: 获赞

11: 评论

1444: 收藏

私信

关注

热门文章

分类专栏

深度学习 15篇
数学基础 45篇
pytorch 11篇
java 9篇
PYTHON库 21篇
python基础学习 69篇
学习笔记 2篇
cs基础 28篇
代码报错 14篇
pandas 17篇
科研绘图 2篇
linux 4篇
自媒体 1篇
python爬虫 3篇
python机器学习 25篇
批处理 4篇
竞赛 4篇
LLM 2篇
Latex 6篇
Sphinx 3篇
AI 5篇
matlab 3篇
数据库 2篇
fastapi 9篇
economics 1篇
geology 2篇
R语言 5篇
办公软件 1篇
C语言经典算法 2篇

最新评论

如何理解 IEEE 754 单精度浮点型能表示的最小绝对值、最大绝对值
梦痴228: 这个最小的错啦，2的负126次方是正确的
Pandas 1- 创建文件
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
zotero中的mdnotes插件点击创建markdown文件无反应
ZJUT_MicroGrid: 可以，第一种方法，实测有用的
FastAPI - 应用Jinja2模板的简单案例
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python - os 库的应用方法
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

司南锤 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。