梯度: 对于一个标量,也就是一维,梯度就是 + 或者 - 。平面二维向量,梯度也是一个向量,这个向量的方向就是梯度的方向。同理 N N N维,所有梯度也可以沿着变量分解成为相应的梯度分量。
在线性模型——解析解我们推倒出以下公式:
损失函数: L ( f ) = ∑ i = 1 N ( y i ^ − y i ) 2 = ∑ i = 1 N ( w ⃗ ⋅ x ⃗ + b − y i ) 2 = ( y ⃗ − X ~ w ~ ⃗ ) T ( y ⃗ − X ~ w ~ ⃗ ) L(f)=\sum_{i=1}^{N}( \hat{y_i}-y_i)^2=\sum_{i=1}^{N}( \vec{w}\cdot\vec{x}+b-y_i)^2=(\vec{y}-\tilde{X}\vec{\tilde{w}})^{T}(\vec{y}-\tilde{X}\vec{\tilde{w}}) L(f)=i=1∑N(yi^−yi)2=i=1∑N(w⋅x+b−yi)2=(y−X~w~)T(y−X~w~) 将其看作是关于 w ~ ⃗ \vec{\tilde{w}} w~ 的函数,那么令: J ( w ~ ⃗ ) = 1 2 N L ( f ) J(\vec{\tilde{w}})=\frac{1}{2N}L(f) J(w~)=2N1L(f) ∂ J ( w ~ ⃗ ) ∂ w ~ ⃗ = 1 N X ~ T ( X ~ w ~ ⃗ − y ⃗ ) = 1 N ( x ~ ⃗ 1 , x ~ ⃗ 2 , ⋯   , x ~ ⃗ N ) ( [ x ~ ⃗ 1 T x ~ ⃗ 2 T ⋮ x ~ ⃗ N T ] w ~ ⃗ − y ⃗ ) \frac{\partial{J(\vec{\tilde{w}})}}{\partial{\vec{\tilde{w}}}}=\frac{1}{N}\tilde{X}^{T}(\tilde{X}\vec{\tilde{w}}-\vec{y})=\frac{1}{N}(\vec{\tilde{x}}_{1},\vec{\tilde{x}}_{2},\cdots,\vec{\tilde{x}}_{N})\left(\begin{bmatrix} \vec{\tilde{x}}_1^{T}\\ \vec{\tilde{x}}_2^{T}\\ \vdots\\ \vec{\tilde{x}}_N^{T}\\ \end{bmatrix}\vec{\tilde{w}}-\vec{y}\right) </