Q1:权重初始化问题
随机的权重初始化会导致输出层输出值偏向0或者1
输出层输出值分布【鱼书p178】
因此需要合理的权重初始化方式:主要有Xavier、He两种
Q2:BN问题
BN是一种改变输出值分布的标准化操作,减小输出层分布的偏向性,可以有效的缓解梯度消失问题。
输出值经过激活函数后,导数值接近于0,反向传播,引起梯度消失问题
f ( ⋅ ) = s i g m o i d f ( x ) = 1 1 + e − x f ′ ( x ) = 1 1 + e − x − 1 ( 1 + e − x ) 2 = f ( x ) ( 1 − f ( x ) ) \begin{aligned} f(·) &= sigmoid \\ f(x) &= \frac {1}{1 + e ^ {-x}} \\ f'(x) &= \frac {1}{1 + e ^ {-x}} - \frac {1}{(1 + e ^ {-x})^2} \\ &= f(x)(1 - f(x)) \end{aligned} f(⋅)f(x)f′(x)=sigmoid=1+e−x1=1+e−x1−(1+e−x)21=f(x)(1−f(x))
因此需要合理的权重初始化方式:主要有Xavier、He两种