梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。
梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。
在第次迭代中:
1、Batch梯度下降法
缺点: 每次迭代要使用所有样本,计算量大,非凸函数容易“陷入”局部最优
优点: 噪声小,每次迭代必定收敛
2、SGD(随机梯度下降法)
每次迭代 随机选取一个样本 进行计算,