Avoiding False Local Minima by Proper Initialization of Connections

最新推荐文章于 2024-10-08 13:48:11 发布

MTandHJ

最新推荐文章于 2024-10-08 13:48:11 发布

阅读量301

点赞数

分类专栏： neural networks 文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MTandHJ/article/details/123868035

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

文章目录

Wessels L. F. A. and Barnard E. Avoiding False local minima by proper initialization of connections. In IEEE Transactions on Neural Networks, 1992.

概

避免局部最优的一种初始化方法, 文中给出的‘合适的’初始化方法的准则还挺有道理.

主要内容

本文主要考虑单隐层的情形, 即
$\sum_{j=1}^H v_j h(\sum_{i=1}^n w_{ij}x_i + w_{0jj}) + v_0.$
其中 $h(\cdot)$ 表激活函数.

下面将分别讨论输入层-隐藏层以及隐藏层-输出层的权重初始化的一些准则.

输入层-隐藏层

对于隐藏层的某个结点而言,
$\tag{1} y = w_0 + w_1x_1 + \cdots + w_nx_n.$

我们希望这些结点避免以下情况的发生:

离群的结点: 即大部分样本点距离分类平面(边界) $y(x) = w^T x + w_0$ 都很远,
这会导致这些样本点对应的 $y (x)$ 要么是很大要么是非常小.
前者会导致弱化其它结点的影响, 后者会导致这个结点意义不大;
重复的结点: 如果两个结点的分类平面非常接近, 容易产生冗余的结果;
结点存在死区(即落入该区域的所有结点都是inactive的).

我们要遵循以下原则来避免上述的几点问题:

决策平面应当在样本空间中合理划分;
决策平面的朝向( $w$ )应当尽可能有所变换;
样本空间的每个区域都应该有至少一个结点是active的.

注: 因为以前的论文大都使用sigmoidal类的激活函数, 所以一般来说 $y > 0$ 被认为是active的, 反之是inactive的.

对于1, 2, 作者希望权重向量 $\bm{w}_i, i = 1,2,\cdots, H$ 之间在空间中是均匀分布的(注意该向量包括偏执 $w_0$ ), 比如在二维空间中, 极坐标系下, $\bm{w}_i = (r_i\cos \theta_i, r_i\sin\theta_i)$ ,
$\theta_i = \left \{ \begin{array}{ll} \frac{\pi}{H} \cdot i & i \: \text{odd} \\ \frac{\pi}{H} \cdot i + \pi & \: i \: \text{even}. \end{array} \right .$

注: 文中实际上选择的是 $\bm{w}_i = (r\cos \theta_i + 0.5, r\sin\theta_i + 0.5)$ , 因为其假设 $x_i \in [0, 1]$ .

为了进一步完善第一点(说是为了最大化方差但是这个不是那么直观), 向量的模长 $r_i$ 为
$r_i = \frac{1}{i}r_1, \: r_1 = 0.5.$

为了保证第三点, 对于 $\bm{w}_i$ 的朝向问题进行一个限制, 其需要保证 $y (0) > 0$ , 实际上就是需要满足 $w_0>0$ .

隐藏层-输出层

作者没有明确给出构造方法, 只是说太大或者太小都不太好.
且建议 $v_i$ 大小一致以保证对各结点没有偏见.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。