在使用pytorch的 nn.BatchNorm2d() 层的时候,经常地使用方式为在参数里面只加上待处理的数据的通道数(特征数量),但是有时候会在后面再加入一个小数,比如这样 nn.BatchNorm2d(64,0.8),这里面的0.8有什么作用呢?
我们知道在训练过程中 nn.BatchNorm2d() 的作用是根据统计的mean 和var来对数据进行标准化,并且这个mena和var在每个batch中都会进行,为了使得数据更有统计意义,使得整个训练数据的特征都能够被保存,则在每个batch过程中,都会对网络的mean和var进行更新,这里就涉及到新的 batch的统计数据mean和var与网络已经保存的这两个统计数据之间的取舍问题了,而这个0.8就指定了保存的比例,这个参数名为momentum.
参数更新是以差分的形式进行的,xt代表新一轮batch产生的数据,x^代表历史数据,这个参数越大,代表当前batch产生的统计数据的重要性越强。