BN、LN、IN、GN和SN

最新推荐文章于 2022-05-17 16:32:20 发布

zephyrji96

最新推荐文章于 2022-05-17 16:32:20 发布

阅读量792

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_36552489/article/details/116004929

版权

深度学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

一、相关paper

Batch Normalization，其论文：https://arxiv.org/pdf/1502.03167.pdf
Layer Normalizaiton，其论文：https://arxiv.org/pdf/1607.06450v1.pdf
Instance Normalization，其论文：https://arxiv.org/pdf/1607.08022.pdf
Group Normalization，其论文：https://arxiv.org/pdf/1803.08494.pdf
Switchable Normalization，其论文：https://arxiv.org/pdf/1806.10779.pdf

二、介绍

BN、LN、IN和GN这四个归一化的计算流程几乎是一样的，可以分为四步：
1.计算出均值
2.计算出方差
3.归一化处理到均值为0，方差为1
4.变化重构，恢复出这一层网络所要学到的分布

在这里插入图片描述

Batch Normalization：

1.BN的计算就是把每个通道的NHW单独拿出来归一化处理
2.针对每个channel我们都有一组γ,β，所以可学习的参数为2*C
3.当batch size越小，BN的表现效果也越不好，因为计算过程中所得到的均值和方差不能代表全局

Layer Normalizaiton：

1.LN的计算就是把每个CHW单独拿出来归一化处理，不受batchsize 的影响
2.常用在RNN网络，但如果输入的特征区别很大，那么就不建议使用它做归一化处理

Instance Normalization

1.IN的计算就是把每个HW单独拿出来归一化处理，不受通道和batchsize 的影响
2.常用在风格化迁移，但如果特征图可以用到通道之间的相关性，那么就不建议使用它做归一化处理

Group Normalizatio

1.GN的计算就是把先把通道C分成G组，然后把每个gHW单独拿出来归一化处理，最后把G组归一化之后的数据合并成CHW
2.GN介于LN和IN之间，当然可以说LN和IN就是GN的特列，比如G的大小为1或者为C

Switchable Normalization

1.将 BN、LN、IN 结合，赋予权重，让网络自己去学习归一化层应该使用什么方法
2.集万千宠爱于一身，但训练复杂

LN和BN对比

在这里插入图片描述

BN解决网络中的Convariate Shift问题

批标准化（Bactch Normalization，BN） 是为了克服神经网络加深导致难以训练而诞生的，随着神经网络深度加深，训练起来就会越来越困难，收敛速度回很慢，常常会导致梯度弥散问题(Vanishing Gradient Problem)。
统计机器学习中有一个经典的假设:Source Domain 和 Target Domain的数据分布是一致的。 也就是说，训练数据和测试数据是满足相同分布的。这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障。
Convariate Shift是指训练集的样本数据和目标样本集分布不一致时，训练得到的模型无法很好的Generalization。 它是分布不一致假设之下的一个分支问题，也就是指Sorce Domain和Target Domain的条件概率一致的，但是其边缘概率不同。的确，对于神经网络的各层输出，在经过了层内操作后，各层输出分布就会与对应的输入信号分布不同，而且差异会随着网络深度增大而加大了，但每一层所指向的Label仍然是不变的。

解决办法： 一般是根据训练样本和目标样本的比例对训练样本做一个矫正。所以，通过引入Bactch Normalization来标准化某些层或者所有层的输入，从而固定每层输入信息的均值和方差。

zephyrji96

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BN、LN、IN、GN和SN

一、相关paperBatch Normalization，其论文：https://arxiv.org/pdf/1502.03167.pdfLayer Normalizaiton，其论文：https://arxiv.org/pdf/1607.06450v1.pdfInstance Normalization，其论文：https://arxiv.org/pdf/1607.08022.pdfGroup Normalization，其论文：https://arxiv.org/pdf/1803
复制链接

扫一扫

专栏目录