梯度下降算法GD--一种经典的优化方法
梯度下降算法是一种常用的一阶优化方法,是求解无约束优化问题最简单,经典的方法之一,计算过程就是沿梯度下降的方向求解极小值。
1.批量梯度下降算法BGD
原理
多元线性回归模型是: f ( x ^ i ) = x ^ i T ( X T X ) − 1 X T y f(\hat{x}_i)=\hat{x}_{i}^{T}(X^{T}X)^{-1}X^{T}y f(x^i)=x^iT(XTX)−1XTy
使用此线性回归模型的条件是 X T X X^{T}X XTX必须为满秩矩阵或者正定矩阵。而一般现实任务中往往不是满秩矩阵,比如当X的列数多于行数(即特征数超过样例数量)。
这个时候就可以用梯度下降法(迭代寻优)设法找到损失函数的最优解(最低点附近),告诉机器一个准确的方向,让它慢慢对最优解进行逼近。如下图:
(损失函数为: J θ = 1 2 m ∑ i = 1 m ( h θ ( x i ) − y i ) 2 J_{\theta}=\dfrac{1}{2m}\sum\limits_{i=1}^{m}(h_{\theta}(x^{i})-y^{i})^{2} Jθ=2m1i=1∑m(hθ(xi)−yi)2,用来估量模型的预测值 h θ h_{\theta}