梯度下降算法(Gradient Descent):模型训练中最常用的一种算法
一.算法产生背景
1.穷举法:提前设定好参数的准确值在某个区间并以某个步长进行穷举
穷举法的思想在参数比较多,即维度比较大的情况下会产生唯独诅咒,在一个N维曲面中找一个最低点,使得原问题不可解,基于这样的情况需要进行改进
2.分治法:大化小,小化无,先对整体进行分割采样,在相对最低点进行进一步采样,直到其步长与误差符合条件
两个缺点:a.容易只找到局部最优解,而不易找到全局最优解
b.如果需要分的更加细致,则计算量仍巨大
由于存在以上问题,提出了参数优化,即求解使loss最小时的参数的值
二.梯度下降算法
梯度:梯度即导数变化最大的值,其方向为导数变化最大的方向
如果令>0,则对于增函数,梯度的方向为函数上升的方向,对于减函