论文笔记-Batch Normalization

最新推荐文章于 2024-05-10 09:44:27 发布

slim1017

最新推荐文章于 2024-05-10 09:44:27 发布

阅读量1.5w

点赞数 3

分类专栏：深度学习论文笔记文章标签： Deep Learning CNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012816943/article/details/51691868

版权

论文题目：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

首先看看博客http://blog.csdn.net/happynear/article/details/44238541中最开始介绍的：

为什么中心化，方差归一化等，可以加快收敛？

补充一点：输入x集中在0周围，sigmoid更可能在其未饱和区域，梯度相对更大一些，收敛更快。

Abstract

1.深层网络训练时，由于模型参数在不断修改，所以各层的输入的概率分布在不断变化，这使得我们必须使用较小的学习率及较好的权重初值，导致训练很慢，同时也导致使用saturating nonlinearities 激活函数（如sigmoid，正负两边都会饱和）时训练很困难。

这种现象加 internal covariate shift ，解决办法是：对每层的输入进行归一化。

本文方法特点是：making normalization a part of the model architecture and performing the normalization for each training mini-batch

Batch Normalization 让我们可以使用更大的学习率，初值可以更随意。它起到了正则项的作用，在某些情况下，有它就不需要使用Dropout了。

在Imagenet上， achieves the same accuracy with 14 times fewertraining steps

Introduction

1. SGD:

用minibatch去近似整个训练集的梯度，在并行计算下，m个合成一个batch计算比单独计算m次快很多。

2.SGD虽然简单高效，但是需要调节很多超参，学习率，初值等。各层权重参数严重影响每层的输入，输入的小变动随着层数加深不断被放大。

这带来一个问题：各层输

最低0.47元/天解锁文章

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
3
评论
论文笔记-Batch Normalization

Batch Normalization：减弱 internal covariate shift，使训练加快，并且可以不再用dropout和LRN。
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。