Pytorch中的Batch Normalization操作
Batch Normalization这里只探究其具体运算过程,我们假设在网络中间经过某些卷积操作之后的输出的feature map的尺寸为4×3×2×2,4为batch的大小,3为channel的数目,2×2为feature map的长宽
整个BN层的运算过程如下图
上图中,batch size一共是4, 对于每一个batch的feature map的size是3×2×2,对于所有batch中的同一个channel的元素进行求均值与方差,比如上图,对于所有的batch,都拿出来最后一个channel,一共有4×4=16个元素,然后求区这16个元素的均值与方差(上图只求了mean,没有求方差。。。),求取完了均值与方差之后,对于这16个元素中的每个元素进行减去求取得到的均值与方差,然后乘以gamma加上beta,公式如下
所以对于一个batch normalization层而言,求取的均值与方差是对于所有batch中的同一个channel进行求取,batch normalization中的batch体现在这个地方batch normalization层能够学习到的参数,对于一个特定的channel而言实际上是两个参数,gamma与beta,对于total的channel而言实际上是channel数目的两倍。
转载:http://www.mamicode.com/info-detail-2378483.html