最速下降:实在没什么好说的,,until 共轭梯度:区别在于方向限制在初始点的共轭方向空间内 随机梯度:相对上面两者每次用所有样本计算下降方向,每次随机选1个或batch个样本 牛顿法:二阶Talor展开,方向 pseudo-Newton (BFGS为例):,, (未完,待补充整理)