梯度下降法
1.原理
- 方向导数
如果函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 P ( x , y ) P(x,y) P(x,y)处可微,则函数在该点任一方向 L L L的方向导数都存在,且有 ∂ f ∂ l = ∂ f ∂ x cos α + ∂ f ∂ y cos β \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x } \cos{\alpha}+\frac{\partial f}{\partial y}\cos{\beta} ∂l∂f=∂x∂fcosα+∂y∂fcosβ α 、 β : 为 方 向 L 的 方 向 角 \alpha、\beta:为方向L的方向角 α、β:为方向L的方向角方向导数表征了函数沿任意方向的变化的速度 - 梯度
设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在平面区域 D D D内具有一阶连续偏导数,则对于每一个点 P ( x , y ) ∈ D P(x,y) \in D P(x,y)∈D,向量 ( ∂ f ∂ x , ∂ f ∂ y ) \left ( \frac{\partial f}{\partial x},\frac{\partial f}{\partial y} \right ) (∂x∂f,∂y∂f)为函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 P P P处的梯度,记为grad f ( x , y ) f(x,y) f(x,y)
某点的梯度是某点方向导数的最大值,因此梯度代表的方向是函数增长最快的方向,而沿负梯度方向为函数下降最快的方向。
2.梯度下降法
- 初始化 θ \theta