Batch Normalization 的原理和作用

最新推荐文章于 2022-06-17 10:22:27 发布

算法有点趣

最新推荐文章于 2022-06-17 10:22:27 发布

阅读量508

点赞数

分类专栏：算法基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38381682/article/details/108610872

版权

算法基础专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一.传统的归一化

1.计算均值mean和方差var

2.归一化x'=(x-mean)/var——每一层的分布都是标准的正态分布，导致其学习不到输入的数据特征

二.BN与传统归一化的区别

在传统的归一化基础上引入伸缩变量：r和平移变量：B。在模型中，这两个参数为可训练参数。即：

3.x''=r*x'+B 。其作用为：将特征的分布从饱和区（梯度爆炸或者梯度消失）拉到非饱和区。

4.通过滑动平均更新全局的均值方差running_mean和running_var——用于线上预估时的bn。

红色字体内容，就是BN相比传统归一化的作用。其中，第一点：每一层的分布都是标准的正态分布，导致其学习不到输入的数据特征。个人不是很理解，因为BN引入伸缩和平移变量后，其实也还是正态分布，那还是会影响模型学不到数据特征。难道是因为伸缩平移后不是标准的正太分布？？？第二点的作用就非常容易理解。

欢迎各位大佬下方留言解答我的迷惑呀～

算法有点趣

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization 的原理和作用

一.传统的归一化1.计算均值mean和方差var2.归一化x'=(x-mean)/var——每一层的分布都是标准的正态分布，导致其学习不到输入的数据特征二.BN与传统归一化的区别在传统的归一化基础上引入伸缩变量：r和平移变量：B。在模型中，这两个参数为可训练参数。即：3.x''=r*x'+B 。其作用为：将特征的分布从饱和区（梯度爆炸或者梯度消失）拉到非饱和区。4.通过滑动平均更新全局的均值方差running_mean和running_var——用于线上预估时的bn。红...
复制链接

扫一扫

专栏目录

算法有点趣 CSDN认证博客专家 CSDN认证企业博客

码龄7年

15: 原创

106万+: 周排名

83万+: 总排名

4万+: 访问

: 等级

512: 积分

4: 粉丝

26: 获赞

6: 评论

60: 收藏

私信

关注

分类专栏

最新评论

安装cvxopt遇到的坑及解决方案
切利: 用conda,一步到位
安装cvxopt遇到的坑及解决方案
weixin_57339244: 我安装32位的直接显示 cvxopt-1.3.0-cp37-cp37m-win32.whl is not a supported wheel on this platform.说明不能安32位的啊
手推Adaboost
lmw0320: 第一张纸倒数第二步到倒数第一步，怎么弄出来的？？第二张纸的第一步，怎么从第一张纸的倒数第一步推出来？？没看懂。。。
手推Adaboost
lmw0320: 第一张纸倒数第二步到倒数第一步，怎么弄出来的？？第二张纸的第一步，怎么从第一张纸的倒数第一步推出来？？没看懂。。。
手推Adaboost
张叫兽的技术研究院: 倒数第二步里面，exp(-α)求导后，应该是exp(α)吧？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。