Pytorch中的Batch Normalization操作

最新推荐文章于 2025-03-02 19:35:32 发布

timetime88

最新推荐文章于 2025-03-02 19:35:32 发布

阅读量647

点赞数

分类专栏：深度学习

原文链接：http://www.mamicode.com/info-detail-2378483.html

版权

深度学习专栏收录该内容

18 篇文章

订阅专栏

Pytorch中的Batch Normalization操作

Batch Normalization这里只探究其具体运算过程，我们假设在网络中间经过某些卷积操作之后的输出的feature map的尺寸为4×3×2×2，4为batch的大小，3为channel的数目，2×2为feature map的长宽

整个BN层的运算过程如下图在这里插入图片描述
上图中，batch size一共是4, 对于每一个batch的feature map的size是3×2×2，对于所有batch中的同一个channel的元素进行求均值与方差，比如上图，对于所有的batch，都拿出来最后一个channel，一共有4×4=16个元素，然后求区这16个元素的均值与方差（上图只求了mean，没有求方差。。。），求取完了均值与方差之后，对于这16个元素中的每个元素进行减去求取得到的均值与方差，然后乘以gamma加上beta，公式如下
在这里插入图片描述
所以对于一个batch normalization层而言，求取的均值与方差是对于所有batch中的同一个channel进行求取，batch normalization中的batch体现在这个地方batch normalization层能够学习到的参数，对于一个特定的channel而言实际上是两个参数，gamma与beta，对于total的channel而言实际上是channel数目的两倍。