CS231N-Batch Normalization（批量归一化）

最新推荐文章于 2024-08-14 15:40:57 发布

锟斤考烫烫烫

最新推荐文章于 2024-08-14 15:40:57 发布

阅读量184

点赞数 9

文章标签： batch 开发语言

本文链接：https://blog.csdn.net/DaJiJixD/article/details/136889298

版权

神经网络的输入在经过层层网络的非线性变换之后，每次学习到的分布都无法预测。并且由于参数的更新，每层输入分布都在发生变化，导致网络很难收敛，为了让网络可以正常训练，就需要
- 学习率不能太高
- 每次参数初始化准确
- 网络层数不能过多
神经网络研究人员发现，这个现象是由于每层分布的差异过大，并且无法预测导致的，那么如果让每一个batch样本在每一层都服从类似的分布，就可以解决这样的问题
标准化并不改变数据的分布，只是将数据在原始空间内进行平移和缩放

我们不希望每层的分布都相同，因此我们增加了一个线性运算γ和β，γ和β是作为参数进行学习的，如果学习得当当伽马等于标准差，β等于期望时，y就是x的恒等映射

测试阶段，我们要统计所有batch的均值和方差，然后均值采用训练集所有batch均值的期望，方差采用所有batch方差的无偏估计就可得出全局统计量

整个训练集的均值和方差是通过指数加权平均计算的，跟动量类似。统计所有批次的均值时，每次更新均值时，1-m乘以过去的均值再加上m乘以当前批次的均值

关注