Gradient descent(梯度下降法)Conjugate gradient(共轭梯度法)BFGS(拟牛顿法)L-BFGS 后面三种算法与梯度下降法相比: 不需要手动设置学习率α收敛速度更快 但是后面三种算法的复杂程度远远高于梯度下降法,如果非计算专家,无需弄懂其中的具体细节,只要会调动使用就可以了