Batch Normalization批量标准化详解

最新推荐文章于 2023-07-05 15:25:48 发布

VIP文章 ty44111144ty

最新推荐文章于 2023-07-05 15:25:48 发布

阅读量1.4k

点赞数 2

分类专栏：算法机器学习深度学习文章标签：算法深度学习数据标准化 batch normalize

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ty44111144ty/article/details/99008644

版权

本文在微信公众号中排版更好看一丢丢，欢迎阅读：Batch Normalization批量标准化详解

欢迎关注我的公众号，微信搜algorithm_Tian或者扫下面的二维码~

现在保持每周更新的频率，内容都是机器学习相关内容和读一些论文的笔记，欢迎一起讨论学习~

在我的公众号之前有讲梯度消失和梯度爆炸现象，并在最后有提到业界现有解决这一问题的方案中有一个叫做batch normalization的方法，直译过来就是批量标准化。

它是一种在深度神经网络训练的数据处理中很有用的一个trick，在梯度优化及避免过拟合方面效果明显，2015年论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中进行了理论详解。

文章将根据原论文，从以下几个方面进行介绍：

1. 提出背景（Internal Covariate Shift和白化）

1.1 Internal Covariate Shift问题

1.2 BN的提出背景

2. BN算法原理

2.1 本质原理

2.2 算法步骤及公式

3. 在网络中的实现方式（训练及预测的区别）

1. 提出背景

1.1 Internal Covariate Shift问题

从上一篇文章中我们知道，训练的时候深度网络参数会根据梯度进行更新，但是随着神经网络层数加深，底层网络的参数的微弱变化会被一层层网络进行指数级放大，参数的改变会让每一层的输入分布改变，导致上层的网络需要不断适应这些变化，模型训练会变得非常困难，这种现象就是Internal Covariate Shift，需要注意的是，它不止是在输入层或输出层存在，Internal这个单词表示的是内部的意思，顾名思义，深度网络的每一层都有可能面临分布不稳定的问题。

1.2 BN的提出背景

但是在机器学习领域有个很重要的假设：IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保

最低0.47元/天解锁文章

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization批量标准化详解

本文在微信公众号中排版更好看一丢丢，欢迎阅读：Batch Normalization批量标准化详解欢迎关注我的公众号，微信搜algorithm_Tian或者扫下面的二维码~现在保持每周更新的频率，内容都是机器学习相关内容和读一些论文的笔记，欢迎一起讨论学习~在我的公众号之前有讲梯度消失和梯度爆炸现象，并在最后有提到业界现有解决这一问题的方案中有一个叫做batch normaliza...
复制链接

扫一扫

专栏目录

ty44111144ty CSDN认证博客专家 CSDN认证企业博客

码龄16年

17: 原创

14万+: 周排名

190万+: 总排名

5万+: 访问

: 等级

592: 积分

21: 粉丝

30: 获赞

2: 评论

171: 收藏

私信

关注

热门文章

分类专栏

编辑器使用 1篇
检索
算法 16篇
机器学习 16篇
深度学习 8篇
nlp 8篇

最新评论

二阶优化方法——牛顿法、拟牛顿法(BFGS、L-BFGS)
高性能服务器: 拟牛顿法是求解非线性优化问题最有效的方法之一，于20世纪50年代由美国Argonne国家实验室的物理学家W.C.Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠，使得非线性优化这门学科在一夜之间突飞猛进。拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。
多任务学习模型详解：Multi-gate Mixture-of-Experts（MMoE ，Google，KDD2018）
yichudu: 沙发赞一个

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。