normalization in NNs

最新推荐文章于 2022-02-06 13:38:39 发布

转行的炼丹师

最新推荐文章于 2022-02-06 13:38:39 发布

阅读量181

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jose_m/article/details/105779020

版权

本文主要介绍neural networks中使用的normalization的方法

Normalization的一般形式为
$y=\frac{a}{\sigma}(x-\mu)+b$

$x$ 为normalization layer的输入， $\mu$ 为均值， $\sigma$ 为标准差， $a$ 和 $b$ 为待学习的参数，主要作用是为了使得normalization layer的输出大小依然可以处于任何范围。

那么问题来了，均值为谁的均值，方差为谁的方差呢？

答案是这是因不同的normalization策略而异的，那么下面我们来看看都有哪些normalization的策略

Batch Norm

是目前使用最多的normalization方法，分别对每一个channel做normalization，均值为所有样本在所有位置的输入的均值，方差为所有样本在所有位置的输入的方差。
在这里插入图片描述

Layer Norm

分别对每一个样本，对所有channel的所有位置的输入做normalization，均值和方差每个样本各不相同，均值为所有channel在所有位置的输入的均值，方差为所有channel在所有位置的输入的方差。

这种方法不总是work，建议在目前有人用该方法做过成功实验的任务上去用。

在这里插入图片描述

Instance Norm

分别对每一个样本，对每一个channel的所有位置的输入做normalization，均值和方差每个样本每个channel各不相同，均值为该channel在所有位置的输入的均值，方差为该channel在所有位置的输入的方差。
在这里插入图片描述

Group Norm

Group Norm与Layer Norm的区别在于不是针对所有channel做，而是针对在一开始就分好组的channel group做。
每组包含的channels的个数是需要去调的超参数，一般可以设置为32。

在这里插入图片描述

对于Batch/Instance Norm，在训练结束后，均值和方差就要被确定下来，在验证/测试的时候直接使用；而对于Layer/Group Norm则不用。

参考资料：NYU《Deep Learning》2020

转行的炼丹师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。