在损失函数中,为了寻找最小的损失函数的值
需要对 学习率(learning rating)进行修改:随着 损失函数L 的取值不同,会越来越接近与最小值,此时学习率也应当越来越小。手动地去调节非常麻烦,有一种自动去调小学习率的方法-Adagrad
Adagrad:
学习率 除以 损失函数在g0到此时这个点的微分平方的和 的平方根
二.feature scaling
讲多个不同的参数尽量调节在同一个范围。避免出现某一个参数的变化对函数得影响特别大的情况。
standard deviation 是标准差 表示数据之间的离散程度。而在feature scaling 中则是某一列的标准差
三.梯度下降损失函数的理论依据
主要依据是泰勒级数和向量数量积