初始化:
梯度下降使用于凸函数,因为梯度下降只能找到一个局部最优(最优)点,如果有多个局部最优,那么初始化的时候就要随机赋值参数,等于从多个起点开始向下爬山,选择最小的loss值的那个点。
步长(学习率):
可以固定一个值,也有各种复杂的方法,可以参考最优化理论这类书籍和课程,通俗的改进方法就是随着时间,步伐越来越短。
停止条件:
1.达到一个迭代次数
2.在一个值附近波动,不再发生明显变化,可以画图来观察
梯度下降的一些理解误区
最新推荐文章于 2021-07-01 17:56:38 发布