1-什么是梯度下降
一种基于搜索的最优化算法,作用:最小化一个损失函数
梯度上升:最大化一个效用函数
:在曲线方程中,导数代表切线斜率;导数代表单位变化时,J相应的变化
梯度下降法的超参:学习率(通常取0.01一般是没有太大问题的);起始点(并不是所有函数都有唯一极值点)
线性回归法的损失函数具有唯一最优解
2-随机梯度下降法
每次只看一个样本,只用一个样本来更新梯度,这也会出现不是每次都能使损失函数减小的情况。
随机梯度下降:若学习率固定为一个值,可能会出现损失函数已在最小值附近,但是由于随机过程的不稳定性,跳出了最小值附近。改进的方法,使得学习率随着随机梯度下降法的过程逐渐下降,其中a和b通常取5和50,这样在前50轮时学习率大概会减少2%,是一个还可以的值。