在确定损失函数后,通过梯度下降优化算法来估计模型的未知参数: 为何 根据一阶泰勒展开,对于一个可微函数,对于任意的x,有: ,其中是梯度,如果一维情况就是一阶导数。 而其中, 是两向量之间的夹角。 当为180度得时候,g(x)*p可取到最小值,即为下降最快的方向。所以,负梯度方向为函数f(x)下降最快的方向,x为未知参数, 对X进行迭代更新 如果f(x)是凸函数,则局部最优解就是全局最优解。