梯度下降思想 初始化待求参数初值;按照梯度方向更新参数;逐渐迭代,直到收敛; 学习率 α \alpha α选择 α \alpha α过小,计算较慢,需要迭代多次; α \alpha α过大,导致震荡,可能无法收敛甚至发散; 其他 针对凸函数,可以找到全局最优解;针对凹函数,常收敛至局部最优解;