TensorFlow实现Batch Normalization

最新推荐文章于 2024-06-29 19:17:32 发布

marsjhao

最新推荐文章于 2024-06-29 19:17:32 发布

阅读量1.3w

点赞数 3

分类专栏： TensorFlow 文章标签： TensorFlow BatchNormalization 批标准化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/marsjhao/article/details/72876460

版权

一、BN（Batch Normalization）算法

1. 对数据进行归一化处理的重要性

神经网络学习过程的本质就是学习数据分布，在训练数据与测试数据分布不同情况下，模型的泛化能力就大大降低；另一方面，若训练过程中每批batch的数据分布也各不相同，那么网络每批迭代学习过程也会出现较大波动，使之更难趋于收敛，降低训练收敛速度。对于深层网络，网络前几层的微小变化都会被网络累积放大，则训练数据的分布变化问题会被放大，更加影响训练速度。

2. BN算法的强大之处

1）为了加速梯度下降算法的训练，我们可以采取指数衰减学习率等方法在初期快速学习，后期缓慢进入全局最优区域。使用BN算法后，就可以直接选择比较大的学习率，且设置很大的学习率衰减速度，大大提高训练速度。即使选择了较小的学习率，也会比以前不使用BN情况下的收敛速度快。总结就是BN算法具有快速收敛的特性。

2）BN具有提高网络泛化能力的特性。采用BN算法后，就可以移除针对过拟合问题而设置的dropout和L2正则化项，或者采用更小的L2正则化参数。

3）BN本身是一个归一化网络层，则局部响应归一化层（Local Response Normalization，LRN层）则可不需要了（Alexnet网络中使用到）。

3. BN算法概述

BN算法提出了变换重构，引入了可学习参数γ、β，这就是算法的关键之处：

引入这两个参数后，我们的网络便可以学习恢复出原是网络所要学习的特征分布，BN层的钱箱传到过程如下：

其中m为batchsize。BatchNormalization中所有的操作都是平滑可导，这使得back propagation可以有效运行并学到相应的参数γ，β。需要注意的一点是Batch Normalization在training和testing时行为有所差别。Training时μβ和σβ由当前batch计算得出；在Testing时μβ和σβ应使用Training时保存的均值或类似的经过处理的值，而不是由当前batch计算。

二、TensorFlow相关函数

最低0.47元/天解锁文章

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow实现Batch Normalization

一、BN（Batch Normalization）算法1. 对数据进行归一化处理的重要性神经网络学习过程的本质就是学习数据分布，在训练数据与测试数据分布不同情况下，模型的泛化能力就大大降低；另一方面，若训练过程中每批batch的数据分布也各不相同，那么网络每批迭代学习过程也会出现较大波动，使之更难趋于收敛，降低训练收敛速度。对于深层网络，网络前几层的微小变化都会被网络累积放大，则训练数
复制链接

扫一扫

专栏目录

marsjhao CSDN认证博客专家 CSDN认证企业博客

码龄14年

55: 原创

12万+: 周排名

79万+: 总排名

89万+: 访问

: 等级

4972: 积分

361: 粉丝

428: 获赞

65: 评论

1108: 收藏

私信

关注

热门文章

分类专栏

最新评论

cin、!cin作为条件判断原理分析
时光3: 以前有这两个函数？现在没了，vs2019。-----------------------------------basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。
cin、!cin作为条件判断原理分析
时光3: basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。以前有，现在没了，vs2019
Keras上实现卷积神经网络CNN
一涟河畔、怨人徨: np.random.seed(1337) 这行代码有什么用呀
Keras上实现卷积神经网络CNN
qq_34706232: 实现啥功能？
TensorFlow变量管理
woshifenghaha: 请问，tf.get_variable("foou/baru/u", [1]) 中【1】是什么意思

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。