批归一化：Batch Normalization

最新推荐文章于 2024-06-26 11:35:37 发布

CaptainHailong

最新推荐文章于 2024-06-26 11:35:37 发布

阅读量342

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CaptainHailong/article/details/84135782

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

批归一化：Batch Normalization

1.由来

批归一化，英文为Batch Normalization,简写为BN，在2015年google的论文首次提到，作者为Sergey Ioffe 和Christian Szegedy，

论文链接为：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

2.BN带来的优势

a.可以使用更大的学习率，模型对参数初始化不敏感。

b.加速网络训练。

c.在一定程度上扮演着正则化的作用，可以减少甚至不适用Dropout，在一定程度上避免模型的过拟合。

3.训练时BN的操作

训练时针对每一个batch的数据进行如下操作：

a.求均值

$\mu =\frac{1}{m}\sum_{1}^{m}x_{i}$

b.求方差

$\delta^{2} =\frac{1}{m}\sum_{1}^{m}(x_{i}-\mu )^{2}$

c.规范化

$\hat{x}_{i}=\tfrac{x_{i}-\mu }{\sqrt{\delta^{2} +\varepsilon }}$

进行规范化后，这个batch中的数据的分布将是以0为均值，1为方差的正太分布，其中 $\epsilon$ 是为了防止分母为零。

d.尺度缩放和平移

$y_{i}=\gamma \hat{x}_{i}+\beta$

$y_{i}$ 就是经过BN层的输出，其中 $\gamma$ 和 $\beta$ 是两个可以学习的参数，这两个参数正是BN的精髓所在，训练时通过方向传播更新，初始化时一般 $\gamma$ 为1， $\beta$ 为0，之所以要进尺度缩放和平移是为了解决Interal Covariate Shift。

4.测试时BN的操作

$E[x]=E_{_{\beta }}[\mu _{\beta }]$

$Var[x]=\frac{m}{m-1}E_{\beta }[\delta ^{2}_{\beta }]$

其实是对训练时所有batch的 $\mu$ 和 $\delta ^{^{2}}$ 求均值。

最终

$y=x_{i}\frac{\gamma }{\sqrt{Var[x]+\epsilon ]}}+(\beta -\frac{\gamma E[x]}{\sqrt{Var[x]+\epsilon }})$

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。