权值初始化
梯度消失 梯度爆炸
两个相互独立的随机变量乘积的期望 等于 他们各自期望的乘积
1. E ( X ∗ Y ) = E ( X ) ∗ E ( Y ) \text { 1. } \mathrm{E}(\boldsymbol{X} * \boldsymbol{Y})=\boldsymbol{E}(\boldsymbol{X}) * \boldsymbol{E}(\boldsymbol{Y}) 1. E(X∗Y)=E(X)∗E(Y)
方差的公式
2. D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 \text { 2. } D(X)=E\left(X^{2}\right)-[E(X)]^{2} 2. D(X)=E(X2)−[E(X)]2
两个相互独立的随机变量之和的方差 等于 他们各自方差的和
3. D ( X + Y ) = D ( X ) + D ( Y ) \text { 3. } \mathrm{D}(X+Y)=D(X)+D(Y) 3. D(X+Y)=D(X)+D(Y)
由1.2.3.式可得
1.2.3 ⇒ D ( X + Y ) = D ( X ) ∗ D ( Y ) + D ( X