概述
梯度下降是寻找最小的损失函数的一种方法。
选择合适的参数,可以更加顺利地降低损失函数,找到模型的最优解。
参数调整
在使用这个方法中,学习率这个参数很重要,学习率高,往往容易‘略过’最小的损失函数。学习率低,损失函数降低不明显。
adagrad方法是改变学习率的一种方式。主要通过损失函数参数变化程度来影响学习率。一个参数的一次微分 / 它自身的二次微分,用来消除参数之间变化的不同,对学习率的影响。
特征对损失函数的影响。降低特征的影响就可以使用特征缩放功能。feature scaling,特征缩放可以使损失函数更容易收敛。
梯度下降的局限
梯度下降的缺点:可能只能找到局部最优解。如果使凸优化问题,就可以找到最优解。