深度学习中的Normalization
Normalization vs Standardization(归一化和标准化的区别)
为了公平比较,或者更好地对数据进行后续处理,常将数据规范到一定范围之内,如将数据映射到[0, 1]之间,这个过程叫做Normalization(归一化)。为应对不同的需求,会设计不同的函数规范这些数据。如果均值 μ \mu μ和标准差 σ \sigma σ已知,最常采用的Normalization为Standardization(标准化)1,又被称为z-score或Standard score,如式(1)所示。
z = x − μ σ (1) z=\frac{x-\mu}{\sigma} \tag{1} z=σx−μ(1)
其中, x x x表示原始数据, z z z为处理后的数据。
除此之外,min-max feature scaling也是一种常用的Normalization,如式(2)所示
z
=
x
−
x
m
i
n
x
m
a
x
−
x
m
i
n
(2)
z=\frac{x-x_{min}}{x_{max}-x_{min}} \tag{2}
z=xmax−xminx−xmin(2)
其中, x m i n x_{min} xmin和 x m a x x_{max} xmax分别表示原始数据中的最大值和最小值,这样处理过后的数据处在[0, 1]之间。
PyTorch中数据增强使用的Normalize及其参数
式(1)就是PyTorch中torchvision.transforms.Normalize
对每一通道分别进行的操作2。需要注意的是,这个操作只改变数据的量级,不会改变数据的分布,即如果数据集本身是正态分布,Standardization后仍然是正态分布。
Normalize常在torchvision.transforms.ToTensor
之后使用,ToTensor
一般情况会将[0, 255]的数据规范到[0.0, 1.0]之间3 ,这种情况下,如果参数选择为mean=std=0.5,那么带入式(1)可以看出,Normalize之后数据范围在[-1, 1]。
虽然使用参数mean=std=0.5比较简单稳妥,然而,更合理的方法是使用采样计算得到的mean和std,根据均值和标准差的意义,此时处理后的数据均值为0,标准差为1。
神经网络中有BN层,是否还需要使用torchvision.transforms.Normalize
torchvision.transforms.Normalize
使用的Normalization又被称为Instance Normalization,即对于一个样本实例, 针对不同通道的数据Normalize。
BN(Batch Normalization, 批归一化)4是在批量样本的Standardization,常在神经网络的线性层与激活层之间使用。它可以保证这一层的输出数据满足均值为0,标准差为1的状态,用于防止过拟合,梯度爆炸以及梯度消失。
除此之外,神经网络中常用的还有LN(Layer Normalization, 层归一化)5,它是为了解决BN无法应用于RNN中的问题被提出的。实验结果表示,大多情况下,RNN、Transformer系列模型架构使用LN效果好,而CNN常使用BN层。
图像问题一般使用了BN层可以不用在预处理阶段使用Instance Normalization了6,但总体来说还是建议先使用Instance Normalization。
https://en.wikipedia.org/wiki/Standard_score ↩︎
https://pytorch.org/vision/0.13/generated/torchvision.transforms.Normalize.html?highlight=normalize#torchvision.transforms.Normalize ↩︎
https://pytorch.org/vision/master/generated/torchvision.transforms.ToTensor.html ↩︎
Ioffe, S., & Szegedy, C. (2015, June). Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning (pp. 448-456). PMLR. ↩︎
Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450. ↩︎
https://www.zhihu.com/question/392699790 ↩︎