Group Normalization算法笔记-CSDN博客

本文链接：https://blog.csdn.net/u014380165/article/details/79810040

Group Normalization（GN）是对Batch Normalization的改进，解决batch size小导致的准确率问题。GN通过将通道分组计算均值和方差，使其独立于batch size，适用于batch size较小的场景，如目标检测和视频处理。尽管在训练时表现优于BN，但验证时可能稍逊一筹。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Group Normalization
论文链接：https://arxiv.org/abs/1803.08494

Group Normalization（GN）是针对Batch Normalization（BN）在batch size较小时错误率较高而提出的改进算法，因为BN层的计算结果依赖当前batch的数据，当batch size较小时（比如2、4这样），该batch数据的均值和方差的代表性较差，因此对最后的结果影响也较大。如图Figure1所示，随着batch size越来越小，BN层所计算的统计信息的可靠性越来越差，这样就容易导致最后错误率的上升；而在batch size较大时则没有明显的差别。虽然在分类算法中一般的GPU显存都能cover住较大的batch设置，但是在目标检测、分割以及视频相关的算法中，由于输入图像较大、维度多样以及算法本身原因等，batch size一般都设置比较小，所以GN对于这种类型算法的改进应该比较明显。
这里写图片描述

因此Group Normalization（GN）的思想并不复杂，简单讲就是要使归一化操作的计算不依赖batch size的大小，原文的这段话概括得非常好：GN divides the channels into groups and computes within each group