下面内容摘自西瓜书,也是我的学习笔记。
在现实的任务中,人们可以采用三种方式试图 “跳出” 局部极小,从而进一步接近全局最小。
1. 以多组不同参数初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终的参数。这相当于从不同的初始点开始搜索,这样就可能陷入不同的局部极小,从中进行选择有可能更接近全局最小的结果。
2. 使用 ”模拟退火“ 技术,模拟退火在每一步都以一定的概率接受比当前更差的结果,从而有助于跳出局部极小,在每部迭代中,接受次优解的概率要随着时间的推移而逐渐降低,从而保证算法的稳定性。
3. 使用随机梯度下降,这个不用多说,(它的迭代过程就像一个喝了酒的醉汉,摇摇晃晃,但是最终能接近最优解附近,正是因为这个特性才使其具有跳出局部最优的能力)