CS231n简介
详见 CS231n课程笔记1:Introduction。
注:斜体字用于注明作者自己的思考,正确性未经过验证,欢迎指教。
Batch Normalization
1. 原理
BN(Batch Normalization)的原理很简单,就是对于给定输入做一个减均值除方差的归一化(可以这么做的原因是上诉归一化操作可导,即可以做BP(反向传播))。当然这么做的优劣难于判断,所以后文给出了改进的BN(实际使用的BN)。
注:训练过程中使用每个Batch的均值和方差做归一化,预测过程中则通过训练数据进行估算(例如可以是训练过程中均值和方差的平均值)。
2. 目的
BN的目的是使得下一层神经网络(通常是非线性的激活函数)的输入是在合理范围内的(接近于均值为0方差为1的正态分布),和数据预处理&合理初始化权重矩阵的目的相同(详见