全连接层的批量归一化mc
卷积层的批量归一化mcpq
1.对全连接层做批量归一化
位置:全连接层中的仿射变换和激活函数之间。
全连接:
x=Wu+boutput=ϕ(x)
批量归一化:
output=ϕ(BN(x))
y(i)=BN(x(i))
μB←1m∑i=1mx(i),
σ2B←1m∑i=1m(x(i)−μB)2,
x^(i)←x(i)−μBσ2B+ϵ−−−−−−√,
这⾥ϵ > 0是个很小的常数,保证分母大于0
y(i)←γ⊙x^(i)+β.
引入可学习参数:拉伸参数γ和偏移参数β。若 γ=σ2B+ϵ−−−−−−√ 和 β=μB ,批量归一化无效。
2.对卷积层做批量归⼀化
位置:卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数。 计算:对单通道,batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。
3.预测时的批量归⼀化
训练:以batch为单位,对每个batch计算均值和方差。
预测:用移动平均估算整个训练数据集的样本均值和方差。
从零实现