注:这不是overfiting的结果,因为这里是training data
对于最后卡在local minima的点,可以通过类比现实物理中的惯性,在做梯度下降时,加上一个代表类似惯性的量momentum,和梯度共同影响下一步的移动,来解决这种卡住的情况:
这个平均值和所有的权重*(1-p)%的结果是可以约等的
如:两个input的时候:
左边,average=(w1x1+w2x2+w2x2+w1x1+0)/4=(w1x1+w2x2)/2
右边,p=50%,所有的权重*(1-p)%算的结果=average