一、梯度下降
使用梯度下降法,找一组参数,让损失函数越小越好。
计算过程:
二、方法
1、调整学习率
- 小心翼翼地调整学习率
- 自适应学习率
如:随着次数的增加,通过一些因子来减少学习率。通常刚开始,初始点会距离最低点比较远,所以使用大一点的学习率,更新好几次参数之后,比较靠近最低点了,此时减少学习率
- Adagrad 算法
每个参数的学习率都把它除上之前微分的均方根。
2、随机梯度下降法
3、特征缩放
一、梯度下降
使用梯度下降法,找一组参数,让损失函数越小越好。
计算过程:
二、方法
1、调整学习率
如:随着次数的增加,通过一些因子来减少学习率。通常刚开始,初始点会距离最低点比较远,所以使用大一点的学习率,更新好几次参数之后,比较靠近最低点了,此时减少学习率
每个参数的学习率都把它除上之前微分的均方根。
2、随机梯度下降法
3、特征缩放