一、概述与应用
(1)论文
xavier论文:《Understanding the difficulty of training deep feedforward neural networks》
he_normal论文:《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》
(2)Tensorflow API,initializer:
tf.keras.initializers.he_normal()
tf.contrib.layers.xavier_initializer()
二、xavier原理
(0) 公式推导
核心:
前向传播时,对于某一层输入x,输出y,如何初始化w使得 x与y的分布一致?
y = sigma(xi * wi) + b , i= 1~n,表示n个神经元。
另外这个论文假设激活函数梯度为1,即没有激活函数
要使得 D(y) = D(x),即w初始化后,输出的方差与输入方差一致:
D(y) = D(xi) = D(sigmal(xi*wi))
= n * D(xi * wi) // 此处根据公式 D(A+B) = D(A) + D(B)的到
= n * D(xi) * D(wi) // 根据公式: