Batch Normalization

最新推荐文章于 2024-05-10 09:44:27 发布

一束光流

最新推荐文章于 2024-05-10 09:44:27 发布

阅读量341

点赞数

分类专栏：论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/sinat_15256063/article/details/77770602

版权

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

                    
                    Batch Normalization 
在以往的网络训练中，对于参数的初始化和训练速率都必须小心谨慎的选择，这导致网络的训练十分困难并且缓慢。究其原因，论文认为是网络中不同层的输出会相互影响，某一层输出变量分布的改变，会导致之后网络不断调整适应。因此文章希望能够固定每一层输出的分布之后，再送入激活函数，这样没一层网络不用去调整适应不同分布的输入，便可以加快训练效率。
传统的白化方法也提出了类似的思想，但是其没有对白化层做后向传播。因此论文提出后向传播时需要对单一训练样本和样本集求导。为了简化算法使之能够应用，论文只对每一维的变量进行nomalization，并且是在一个mini-batch中。为了防止归一化破坏数据原始的分布，又设置了额外一组可训练的参数使之确保有能够恢复原分布的能力（但未必一定恢复）。在inference时，将之前所有mini-batch数据的均值和方差采样，将bn层参数固定，这样达到了一个全局归一化的效果，具体公式参见论文。
BN层的提出具有非常大的影响力，目前绝大多数网络都会使用BN层，其提升的训练效率是非常明显的.但其背后的原理，还有待进一步探讨。

一束光流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization

Batch Normalization动机在以往的网络训练中，对于参数的初始化和训练速率都必须小心谨慎的选择，这导致网络的训练十分困难并且缓慢。究其原因，论文认为是网络中不同层的输出会相互影响，某一层输出变量分布的改变，会导致之后网络不断调整适应。因此文章希望能够固定每一层输出的分布之后，再送入激活函数，这样没一层网络不用去调整适应不同分布的输入，便可以加快训练效率。传统的白化方法也提出了类似的
复制链接

扫一扫