Batch Normalization

最新推荐文章于 2023-04-13 00:28:53 发布

Kuekua-seu

最新推荐文章于 2023-04-13 00:28:53 发布

阅读量145

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012554092/article/details/97298860

版权

深度学习专栏收录该内容

36 篇文章 0 订阅

订阅专栏

算法解决的问题：

机器学习领域有个很重要的假设：IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。

Internal Covariate Shift：
训练时每个batch数据的分布可能会有所差异，如果不对这种差异进行归一化处理，会导致训练有一些波动，单纯对输入数据进行白化处理可能不够，因为浅层信息的小差异随着网络层数的加深差异会逐渐变大，在每个卷积和全连接层的输出加上BN可将这种差异归一化。

原理：
BN计算公式
如图所示，训练时 $u$ , $o$ 为当前batch的均值和方差，并通过一阶矩的形式计算整个训练集的均值和方差， $y$ , $B$ 根据decay参数进行更新学习的参数；推断时 $u$ , $o$ 为训练时计算好的整个训练集的均值和方差， $y$ , $B$ 为训练时计算好的参数。

$y$ , $B$ 的必要性：
BN为了保证非线性的获得，对变换后的满足均值为0方差为1的输出进行了scale加上shift操作( $y = y * x + B$ )，每个神经元增加了两个参数 $y$ , $B$ 参数，这两个参数是通过训练学习到的，意思是通过 $y$ , $B$ 把这个值从标准正态分布左移或者右移一点并长胖一点或者变瘦一点，每个实例挪动的程度不一样，这样等价于非线性函数的值从正中心周围的线性区往非线性区动了动。核心思想应该是想找到一个线性和非线性的较好平衡点，既能享受非线性的较强表达能力的好处，又避免太靠非线性区两头使得网络收敛速度太慢。

算法优点：

加速训练过程：BN解决ICS问题，减少训练时的波动
可以使用较大的学习率：BN减轻样本分布的波动，让每次梯度更合理
允许在深层网络中使用sigmoid这种易导致梯度消失的激活函数：BN可让激活函数的输入数据在0附近波动
具有轻微地正则化效果，以此可以降低dropout的使用：BN与dropout一般二选一

参考网站：
tensorflow接口

深度学习基础系列（七）| Batch Normalization

TensorFlow的batch normalization层中存在的坑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization

算法解决的问题：Internal Covariate Shift：训练时每个batch数据的分布可能会有所差异，原理：如图所示，训练时uuu,ooo为当前batch的均值和方差，并通过一阶矩的形式计算整个训练集的均值和方差，yyy,BBB根据decay参数进行更新学习的参数；推断时uuu,ooo为训练时计算好的整个训练集的均值和方差，yyy,BBB为训练时计算好的参数。参考网站：te...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。