本文主要是在看完Andrew Ng的Deep Learning Specialization(Coursera链接,网易云课堂官方授权搬运)系列中相关课程后的记录整理和一点思考
1. 什么是Batch-Norm
首先,Batch-Norm(以下简称BN)是一种归一化的方法,不仅可以在深度学习中使用,在很多其他统计学习(比如Logistic Regression)中也适用。归一化的目标都是希望能加速学习过程,一个简单的例子就是:在使用梯度下降求解最优解的时候,如果等高线(或者说等值线?)的形状越近似于圆,算法收敛到最优解的速度越快,而BN就是将原本的椭圆处理成近似圆。
2. 神经网络中Batch-Norm的实现
BN实现过程如下:
μ = 1 m ∑ i z ( i ) \mu=\frac{1}{m}\sum_i{z^{(i)}} μ=m1i∑z(i)
σ 2 = 1 m ∑ i ( z ( i ) − μ ) 2 \sigma^2=\frac{1}{m}\sum_i(z^{(i)}-\mu)^2 σ2