DeepLearning与Local minima

最新推荐文章于 2024-02-16 20:32:32 发布

大师鲁

最新推荐文章于 2024-02-16 20:32:32 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.csdn.net/laolu1573/article/details/78491020

版权

Yoshua Bengio研究组通过实验发现，在训练高维（参数）神经网络时，几乎不会遇到局部极小点（这与我们以往的直觉相背），但会存在鞍点，而这些鞍点只在某些维度上是局部极小的。鞍点会显著减缓神经网络的训练速度，直到在训练过程中找到正确的逃离方向。从下图可以明显看出这种现象，每当到达一个鞍点，都会“震荡”多次最终逃逸。

Bengio提供了一个浅显易懂的解释：我们假设在某个维度上，一个点是局部极小点的概率为p。那么这个点在1000维的空间下是局部极小点的概率则为p^1000，是一个典型的小概率事件。而该点在少数几个维度上局部极小的概率则相对较高。在参数优化过程中，当到达这些点的时候训练速度会明显变慢，直到找到正确的方向。

另外，概率p会随着损失函数逐渐接近全局最优点而不断增大。这意味着，当网络收敛到一个真正的局部极小点时，通常可以认为该点已经离全局最优足够接近了。