Wessels L. F. A. and Barnard E. Avoiding False local minima by proper initialization of connections. In IEEE Transactions on Neural Networks, 1992.
概
避免局部最优的一种初始化方法, 文中给出的‘合适的’初始化方法的准则还挺有道理.
主要内容
本文主要考虑单隐层的情形, 即
f
(
x
)
=
∑
j
=
1
H
v
j
h
(
∑
i
=
1
n
w
i
j
x
i
+
w
0
j
j
)
+
v
0
.
f(x) = \sum_{j=1}^H v_j h(\sum_{i=1}^n w_{ij}x_i + w_{0jj}) + v_0.
f(x)=j=1∑Hvjh(i=1∑nwijxi+w0jj)+v0.
其中
h
(
⋅
)
h(\cdot)
h(⋅)表激活函数.
下面将分别讨论输入层-隐藏层以及隐藏层-输出层的权重初始化的一些准则.
输入层-隐藏层
对于隐藏层的某个结点而言,
y
=
w
0
+
w
1
x
1
+
⋯
+
w
n
x
n
.
(1)
\tag{1} y = w_0 + w_1x_1 + \cdots + w_nx_n.
y=w0+w1x1+⋯+wnxn.(1)
我们希望这些结点避免以下情况的发生:
- 离群的结点: 即大部分样本点距离分类平面(边界)
y
(
x
)
=
w
T
x
+
w
0
y(x) = w^T x + w_0
y(x)=wTx+w0 都很远,
这会导致这些样本点对应的 y ( x ) y(x) y(x)要么是很大要么是非常小.
前者会导致弱化其它结点的影响, 后者会导致这个结点意义不大; - 重复的结点: 如果两个结点的分类平面非常接近, 容易产生冗余的结果;
- 结点存在死区(即落入该区域的所有结点都是inactive的).
我们要遵循以下原则来避免上述的几点问题:
- 决策平面应当在样本空间中合理划分;
- 决策平面的朝向( w w w)应当尽可能有所变换;
- 样本空间的每个区域都应该有至少一个结点是active的.
注: 因为以前的论文大都使用sigmoidal类的激活函数, 所以一般来说 y > 0 y > 0 y>0被认为是active的, 反之是inactive的.
对于1, 2, 作者希望权重向量
w
i
,
i
=
1
,
2
,
⋯
,
H
\bm{w}_i, i = 1,2,\cdots, H
wi,i=1,2,⋯,H之间在空间中是均匀分布的(注意该向量包括偏执
w
0
w_0
w0), 比如在二维空间中, 极坐标系下,
w
i
=
(
r
i
cos
θ
i
,
r
i
sin
θ
i
)
\bm{w}_i = (r_i\cos \theta_i, r_i\sin\theta_i)
wi=(ricosθi,risinθi),
θ
i
=
{
π
H
⋅
i
i
odd
π
H
⋅
i
+
π
i
even
.
\theta_i = \left \{ \begin{array}{ll} \frac{\pi}{H} \cdot i & i \: \text{odd} \\ \frac{\pi}{H} \cdot i + \pi & \: i \: \text{even}. \end{array} \right .
θi={Hπ⋅iHπ⋅i+πioddieven.
注: 文中实际上选择的是 w i = ( r cos θ i + 0.5 , r sin θ i + 0.5 ) \bm{w}_i = (r\cos \theta_i + 0.5, r\sin\theta_i + 0.5) wi=(rcosθi+0.5,rsinθi+0.5), 因为其假设 x i ∈ [ 0 , 1 ] x_i \in [0, 1] xi∈[0,1].
为了进一步完善第一点(说是为了最大化方差但是这个不是那么直观), 向量的模长
r
i
r_i
ri为
r
i
=
1
i
r
1
,
r
1
=
0.5.
r_i = \frac{1}{i}r_1, \: r_1 = 0.5.
ri=i1r1,r1=0.5.
为了保证第三点, 对于 w i \bm{w}_i wi的朝向问题进行一个限制, 其需要保证 y ( 0 ) > 0 y(0) > 0 y(0)>0, 实际上就是需要满足 w 0 > 0 w_0>0 w0>0.
隐藏层-输出层
作者没有明确给出构造方法, 只是说太大或者太小都不太好.
且建议
v
i
v_i
vi大小一致以保证对各结点没有偏见.