梯度下降法(GD,gradient descent)是一种优化方法,比如对某个损失函数进行最小化的优化。
其共有三种:
- BGD,batch gradient descent:批量梯度下降
- SGD,stochastic gradient descent:随机梯度下降
- mini-batch GD,mini-batch gradient descent:小批量梯度下降
BGD
假设有损失函数:
f ( α 0 , α 1 , . . . , α n , ) = 1 m ∑ m j = 0 ( y ^ − y ) 2 f(\alpha_{0},\alpha_{1},...,\alpha_{n},)=\frac{1}{m}\sum_{m}^{j=0}(\hat{y}-y)^{2} f(α0,α1,...,αn,)=m1m∑j=0(y^−y)