梯度下降变形:动量算法,Nesterov算法,共轭梯度法(每走一步该方向都要与前面走过的方向正交,参考线性代数正交化),有多少维就走多少步,不过每一步都要与前面走过的方向正交
另外,步长(学习率)也是可以改变的:每次往梯度方向分别尝试移动step步长与step/2步长,取函数值更小的那个步长循环迭代操作
PS:自然梯度法有时间再弄懂
梯度下降变形:动量算法,Nesterov算法,共轭梯度法(每走一步该方向都要与前面走过的方向正交,参考线性代数正交化),有多少维就走多少步,不过每一步都要与前面走过的方向正交
另外,步长(学习率)也是可以改变的:每次往梯度方向分别尝试移动step步长与step/2步长,取函数值更小的那个步长循环迭代操作
PS:自然梯度法有时间再弄懂