深度学习中的Normalization

最新推荐文章于 2024-03-06 21:56:16 发布

karry_0605

最新推荐文章于 2024-03-06 21:56:16 发布

阅读量973

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/karry_0605/article/details/126649328

版权

深度学习中的Normalization

Normalization vs Standardization(归一化和标准化的区别)

为了公平比较，或者更好地对数据进行后续处理，常将数据规范到一定范围之内，如将数据映射到[0, 1]之间，这个过程叫做Normalization(归一化)。为应对不同的需求，会设计不同的函数规范这些数据。如果均值 $\mu$ 和标准差 $\sigma$ 已知，最常采用的Normalization为Standardization(标准化)¹，又被称为z-score或Standard score，如式(1)所示。

$z=\frac{x-\mu}{\sigma} \tag{1}$

其中， $x$ 表示原始数据， $z$ 为处理后的数据。

除此之外，min-max feature scaling也是一种常用的Normalization，如式(2)所示
$z=\frac{x-x_{min}}{x_{max}-x_{min}} \tag{2}$

其中， $x_{min}$ 和 $x_{max}$ 分别表示原始数据中的最大值和最小值，这样处理过后的数据处在[0, 1]之间。

PyTorch中数据增强使用的Normalize及其参数

式(1)就是PyTorch中torchvision.transforms.Normalize对每一通道分别进行的操作²。需要注意的是，这个操作只改变数据的量级，不会改变数据的分布，即如果数据集本身是正态分布，Standardization后仍然是正态分布。

Normalize常在torchvision.transforms.ToTensor之后使用，ToTensor一般情况会将[0, 255]的数据规范到[0.0, 1.0]之间³ ，这种情况下，如果参数选择为mean=std=0.5，那么带入式(1)可以看出，Normalize之后数据范围在[-1, 1]。

虽然使用参数mean=std=0.5比较简单稳妥，然而，更合理的方法是使用采样计算得到的mean和std，根据均值和标准差的意义，此时处理后的数据均值为0，标准差为1。

神经网络中有BN层，是否还需要使用torchvision.transforms.Normalize

torchvision.transforms.Normalize使用的Normalization又被称为Instance Normalization，即对于一个样本实例，针对不同通道的数据Normalize。

BN(Batch Normalization, 批归一化)⁴是在批量样本的Standardization，常在神经网络的线性层与激活层之间使用。它可以保证这一层的输出数据满足均值为0，标准差为1的状态，用于防止过拟合，梯度爆炸以及梯度消失。

除此之外，神经网络中常用的还有LN(Layer Normalization, 层归一化)⁵，它是为了解决BN无法应用于RNN中的问题被提出的。实验结果表示，大多情况下，RNN、Transformer系列模型架构使用LN效果好，而CNN常使用BN层。

图像问题一般使用了BN层可以不用在预处理阶段使用Instance Normalization了⁶，但总体来说还是建议先使用Instance Normalization。

https://en.wikipedia.org/wiki/Standard_score ↩︎
https://pytorch.org/vision/0.13/generated/torchvision.transforms.Normalize.html?highlight=normalize#torchvision.transforms.Normalize ↩︎
https://pytorch.org/vision/master/generated/torchvision.transforms.ToTensor.html ↩︎
Ioffe, S., & Szegedy, C. (2015, June). Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning (pp. 448-456). PMLR. ↩︎
Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450. ↩︎
https://www.zhihu.com/question/392699790 ↩︎