Avoiding False Local Minima by Proper Initialization of Connections

Wessels L. F. A. and Barnard E. Avoiding False local minima by proper initialization of connections. In IEEE Transactions on Neural Networks, 1992.

避免局部最优的一种初始化方法, 文中给出的‘合适的’初始化方法的准则还挺有道理.

主要内容

本文主要考虑单隐层的情形, 即
f ( x ) = ∑ j = 1 H v j h ( ∑ i = 1 n w i j x i + w 0 j j ) + v 0 . f(x) = \sum_{j=1}^H v_j h(\sum_{i=1}^n w_{ij}x_i + w_{0jj}) + v_0. f(x)=j=1Hvjh(i=1nwijxi+w0jj)+v0.
其中 h ( ⋅ ) h(\cdot) h()表激活函数.

下面将分别讨论输入层-隐藏层以及隐藏层-输出层的权重初始化的一些准则.

输入层-隐藏层

对于隐藏层的某个结点而言,
y = w 0 + w 1 x 1 + ⋯ + w n x n . (1) \tag{1} y = w_0 + w_1x_1 + \cdots + w_nx_n. y=w0+w1x1++wnxn.(1)

我们希望这些结点避免以下情况的发生:

  1. 离群的结点: 即大部分样本点距离分类平面(边界) y ( x ) = w T x + w 0 y(x) = w^T x + w_0 y(x)=wTx+w0 都很远,
    这会导致这些样本点对应的 y ( x ) y(x) y(x)要么是很大要么是非常小.
    前者会导致弱化其它结点的影响, 后者会导致这个结点意义不大;
  2. 重复的结点: 如果两个结点的分类平面非常接近, 容易产生冗余的结果;
  3. 结点存在死区(即落入该区域的所有结点都是inactive的).

我们要遵循以下原则来避免上述的几点问题:

  1. 决策平面应当在样本空间中合理划分;
  2. 决策平面的朝向( w w w)应当尽可能有所变换;
  3. 样本空间的每个区域都应该有至少一个结点是active的.

注: 因为以前的论文大都使用sigmoidal类的激活函数, 所以一般来说 y > 0 y > 0 y>0被认为是active的, 反之是inactive的.

对于1, 2, 作者希望权重向量 w i , i = 1 , 2 , ⋯   , H \bm{w}_i, i = 1,2,\cdots, H wi,i=1,2,,H之间在空间中是均匀分布的(注意该向量包括偏执 w 0 w_0 w0), 比如在二维空间中, 极坐标系下, w i = ( r i cos ⁡ θ i , r i sin ⁡ θ i ) \bm{w}_i = (r_i\cos \theta_i, r_i\sin\theta_i) wi=(ricosθi,risinθi),
θ i = { π H ⋅ i i   odd π H ⋅ i + π   i   even . \theta_i = \left \{ \begin{array}{ll} \frac{\pi}{H} \cdot i & i \: \text{odd} \\ \frac{\pi}{H} \cdot i + \pi & \: i \: \text{even}. \end{array} \right . θi={HπiHπi+πioddieven.

注: 文中实际上选择的是 w i = ( r cos ⁡ θ i + 0.5 , r sin ⁡ θ i + 0.5 ) \bm{w}_i = (r\cos \theta_i + 0.5, r\sin\theta_i + 0.5) wi=(rcosθi+0.5,rsinθi+0.5), 因为其假设 x i ∈ [ 0 , 1 ] x_i \in [0, 1] xi[0,1].

为了进一步完善第一点(说是为了最大化方差但是这个不是那么直观), 向量的模长 r i r_i ri
r i = 1 i r 1 ,   r 1 = 0.5. r_i = \frac{1}{i}r_1, \: r_1 = 0.5. ri=i1r1,r1=0.5.

为了保证第三点, 对于 w i \bm{w}_i wi的朝向问题进行一个限制, 其需要保证 y ( 0 ) > 0 y(0) > 0 y(0)>0, 实际上就是需要满足 w 0 > 0 w_0>0 w0>0.

隐藏层-输出层

作者没有明确给出构造方法, 只是说太大或者太小都不太好.
且建议 v i v_i vi大小一致以保证对各结点没有偏见.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值