梯度下降是一个用来求函数最小值的算法,我们将使用代价函数(J(θ0,θ1))最小值,梯度下降,求出梯度下降背后的思想,开始对我们随机选择一个参数的组合计算代价函数,然后寻找下一个能让代价函数值下降最多的参数组合,我们持续这么做,直到找到一个局部最小值,因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否是局部最小值,选择不同的初始函数组合可能会找到不同的局部最小值。
梯度下降-学习率:
梯度下降算法收敛所需要的迭代次数,根据模型的不同而不同,我们不能提前预知,我们可以绘制接迭代次数和代价函数的图来观测算法何时趋于收敛。
梯度下降算法的每次迭代受到学习率的影响,如果学习率α过小,则达到收敛所需要的迭代次数会非常高,如果学习率过大α,每次可能迭代以后不捡小代价函数,可能会越过局部最小值,导致无法收敛。