七种梯度下降实现
文章目录
一、梯度下降推导过程
目标函数: f ( θ , b ) = ∣ ∣ A θ + b − y ∣ ∣ = ∣ ∣ A ^ θ ^ − y ∣ ∣ 2 2 f(\theta, b)=||A\theta+b-y||=||\hat A \hat \theta-y||_2^2 f(θ,b)=∣∣Aθ+b−y∣∣=∣∣A^θ^−y∣∣22
令目标函数: f ( θ ) = ∣ ∣ A θ − y ∣ ∣ 2 2 f(\theta)=||A \theta-y||_2^2 f(θ)=∣∣Aθ−y∣∣22
对目标函数求梯度: ∇ f ( θ ) = A T A θ − A T y = A T ( A θ − y ) \nabla f(\theta)=A^TA\theta-A^Ty=A^T(A\theta-y) ∇f(θ)=ATAθ−ATy=AT(Aθ−y)
梯度更新公式: θ k + 1 = θ k − η ∇ f ( θ k ) , 其 中