stochastic gradient descent
gradient descent和stochastic gradient descent区别
f
例如,下图左右部分比较,左面x2对y影响比较大,因此在w2方向上的变化比较sharp陡峭在w1方向上比较缓和。
featuring scaling 有很多,下面是比较普遍的途径之一:
梯度下降的理论基础:
每一次更新参数的时候都得到一个新的theta,这样一个theta可以使得损失函数越来越小。
how to find the smallest value nearby?
we can know the taylor series :
一个变量x的时候
两个变量的时候
local minimum ?