Shimodaira H. and Ltd N. M. C. A weight value initialization method for improving learning performance of the backpropagation algorithm in neural networks.
概
考虑
f
(
x
)
=
σ
(
∑
i
=
1
n
w
i
x
i
+
w
0
)
f(x) = \sigma (\sum_{i=1}^n w_i x_i + w_0)
f(x)=σ(i=1∑nwixi+w0)
的权重初始, 其中
σ
(
z
)
=
1
1
+
exp
(
−
z
)
.
\sigma(z) = \frac{1}{1 + \exp(-z)}.
σ(z)=1+exp(−z)1.
主要内容
Sigmoid是典型的两侧饱和的激活函数, 作者希望最开始的激活函数前的输入是在非饱和区域的,
从而能够避免梯度过小导致训练不易的问题. 不妨假设, 我们希望最后的输出落在
[
ϵ
,
1
−
ϵ
]
,
0
<
ϵ
<
0.5
[\epsilon, 1 - \epsilon], 0 < \epsilon < 0.5
[ϵ,1−ϵ],0<ϵ<0.5区域内.
则对应的激活函数前的输入
z
z
z应当满足:
z
∈
[
f
−
1
(
ϵ
)
,
f
−
1
(
1
−
ϵ
)
]
,
z \in [f^{-1}(\epsilon), f^{-1}(1 - \epsilon)],
z∈[f−1(ϵ),f−1(1−ϵ)],
对应的是区域是
∑
i
=
1
n
w
i
x
i
+
w
0
=
f
−
1
(
ϵ
)
∑
i
=
1
n
w
i
x
i
+
w
0
=
f
−
1
(
1
−
ϵ
)
\sum_{i=1}^n w_i x_i + w_0 = f^{-1}(\epsilon) \\ \sum_{i=1}^n w_i x_i + w_0 = f^{-1}(1 - \epsilon)
i=1∑nwixi+w0=f−1(ϵ)i=1∑nwixi+w0=f−1(1−ϵ)
超平面之间的区域. 此区域的宽度为
d
=
∣
f
−
1
(
1
−
ϵ
)
−
f
−
1
(
ϵ
)
∣
(
∑
i
=
1
n
w
i
2
)
1
2
.
d = \frac{| f^{-1}(1 - \epsilon) - f^{-1}(\epsilon) |}{(\sum_{i=1}^n w_i^2)^{\frac{1}{2}}}.
d=(∑i=1nwi2)21∣f−1(1−ϵ)−f−1(ϵ)∣.
显然
w
ˉ
2
:
=
1
n
∑
i
=
1
n
w
i
2
\bar{w}^2 := \frac{1}{n} \sum_{i=1}^n w_i^2
wˉ2:=n1i=1∑nwi2
决定了这个宽度, 越小对应的宽度越大, 我们可以通过此属性来调整所需的宽度(作者认为恰好覆盖输入的是最好的).
那么可以根据如下步骤构建权重:
- 给定 w ˉ 2 \bar{w}^2 wˉ2 和 参数 γ \gamma γ;
- 为了保证权重满足
w ˉ 2 ( 1 − γ ) ≤ w i 2 ≤ w ˉ 2 ( 1 + γ ) , \bar{w}^2 (1 - \gamma) \le w_i^2 \le \bar{w}^2 (1 + \gamma), wˉ2(1−γ)≤wi2≤wˉ2(1+γ),
随机选择
− γ ≤ α i ≤ γ , i = 1 , 2 , ⋯ , n ; -\gamma \le \alpha_i \le \gamma, \: i = 1, 2, \cdots, n; −γ≤αi≤γ,i=1,2,⋯,n; - 令
w i = w ˉ α i + 1 . w_i = \bar{w}\sqrt{\alpha_i + 1}. wi=wˉαi+1.
注: 文中 w 0 = − 0.5 ∑ i = 1 n w i w_0 = -0.5\sum_{i=1}^n w_i w0=−0.5∑i=1nwi以保证非饱和区域的中心和输入的中心是一致的.