1. 前言
机器学习中常常将具体的问题抽象为数学表达,再通过最优化算法求取相关参数的最优值。其中最常用的便是基于梯度的优化算法。则可以将其总结为批量梯度下降法(BGD)、随机梯度下降法(SGD)、小批量梯度下降法(MBGD),本文也将从这几个方面进行解释。
首先,定义决策函数为:
yθ=∑i=1mθxi y θ = ∑ i = 1 m θ x i
则可以将损失函数定义为如下形式:
L(θ)=1m∑i=1m(yi−yθ(xi))2 L ( θ ) = 1 m ∑ i = 1 m ( y i − y θ ( x i ) ) 2
者就是求取最优值的问题,那么采用的算法一般为前面提到的方法。
2. 批量梯度下降法(BGD)
批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,其数学形式如下:
(1) 对上述的能量函数求偏导:
∂L