正则化的核心当然是参数矩阵归一化,即均值和方差的计算。不同norm结构的区别正是计算均值和方差的方式。
对于神经网络中,layer=Batchnorm(inputs, axis=[a,b,c])和layer=BatchnoLayerNormrm(inputs, axis=[a,b,c])而言,batchnorm的均值和方差维度等于[a,b,c],而Layernorm会对输入中[a,b,c]这部分计算得到一个方差标量。
假设输入inputs完整维度未[x,y,a,b,c]。
正则化的核心当然是参数矩阵归一化,即均值和方差的计算。不同norm结构的区别正是计算均值和方差的方式。
对于神经网络中,layer=Batchnorm(inputs, axis=[a,b,c])和layer=BatchnoLayerNormrm(inputs, axis=[a,b,c])而言,batchnorm的均值和方差维度等于[a,b,c],而Layernorm会对输入中[a,b,c]这部分计算得到一个方差标量。
假设输入inputs完整维度未[x,y,a,b,c]。