1.神经网络权值更新时候,W-学习率 *(损失函数对w偏导数), 为什么是减?
理解1:假设网络是:y=wx, 其中w就是一个数,再具体比如是:x, 其中w=1
而目标函数是 w=0.75, y=0.75x
那么样本是(2,1.5), 网络预测值是:wx=x=2, 即(2, 2)。那么损失函数是
E对w求偏倒
网络学习目标是predict线向target线靠近,即w 要减小,那么W-学习率 *(损失函数对w偏导数) = 1 - 0.1*1=0.9,正在想目标斜率0.75靠近, 这里如果换成加,那么w就变大了,从而远离目标直线了。
反过来下图中predict线变成target, target线变成predict,那么样本点是(2, 2), 预测的点是(2, 1.5), y=0.75x, 从而E=0.25, 对w求偏导数是-1, 那么 W-学习率 *(损失函数对w偏导数)=0.75-0.1*(-1)=0.85, 如果变成加,同样的,网络直线就远离target直线了。
思路2:分析损失函数出发
给定x0,y0, w为变量, E是一个抛物线,开口向上,最小值大于等于0, 那么右侧有一个w, 此处的偏导即为改点斜率,从而,E极小值对应的右侧,斜率为正,那么只有w只有减去一个很小的值,才能向移动,同理如果神经网络权值w在左侧,那么偏导为负数,这个时候减去很小的负数,就是加一个数,即左侧点,向右侧移动。
2.神经网络为什么能够学习
看上面抛物线,能看出来,E在右侧,每个w的梯度方向,是与w轴正方向同向平行,w在向使得最小化损失函数点, 方向移动,即梯度方向的反方向移动,所以最终神经网络将学习到使得损失函数最小的权值。
如何直观形象地理解方向导数与梯度以及它们之间的关系? - 张健炜的回答 - 知乎 https://www.zhihu.com/question/36301367/answer/1663081815