Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 论文阅读笔记 论文中的相关问题1.内部协变量偏移2.加入BN层的位置3.BN层前的卷积不需要偏置,因为做BN会把偏置减掉 论文中的相关问题 1.内部协变量偏移 训练时参数变化会导致各层分布不断变化 2.加入BN层的位置 在非线性变换前加BN(因为RELU会导致一部分数据丢失) 3.BN层前的卷积不需要偏置,因为做BN会把偏置减掉