Batch Normalization（批规范化）

最新推荐文章于 2023-07-05 15:25:48 发布

YF2664

最新推荐文章于 2023-07-05 15:25:48 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习

深度学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一、批规范化的目的

批规范化的目的在于：为了解决深层网络难以训练的问题。深度神经网络之所以难以训练是因为每一层输入的分布在训练期间会随着前一层参数变化而变化，就要求我们必须使用一个很小的学习率和对参数很好的初始化，但是这样么做会让训练过程变得很慢。每一层输入的分布在训练期间会随着前一层参数变化而变化”这种现象在论文中被称为 Internal Covariate Shift(即内部协变量偏移)。对于神经网络的各层输出，在经过了各个层内操作以后，其分布会与各层对应的输入信号分布不同，而且差异会随着网络深度增大而越来越大。

二、BN操作共分四步：前两部分别计算批处理的数据均值和方差，第三步则根据计算的均值、方差对该批数据进行规范化，前三步类似于数据的归一化处理。而第四步则是关键的一步，也是其差异所在。第四步引入了一个线性函数，其中参数 γ 起到scale的作用， β 起到shift的作用，这两个参数要通过训练得到。最后一步的”尺度变换和偏移“操作是为了让因训练而”刻意加入的BN能够有可能还原最初的输入，说通俗点就是，即矫正了变化了的层数据分布，同时又不影响原有层数据的表示能力。