1.To make gradient descent converage,we must slowly decrease α over time.这句话是对的随着运行而调整α
2.Gradient descent is guaranteed to find the global minimum for any function J(Θ0,Θ1).这句话也是对的由于
我可以选择不同的初始点然后进行梯度下降算法,最后总有满足要求的初始点可以下降到最优解
3.Gradient descent can converge even if α is kept fixed.(But α cannot be too large, or else it may fall to converge)
这句话也是对的因为即使固定α的值,导数的斜率也是再逐渐变小的(想想一个凹函数和它的切线最低点导数为0,
切线是平的),而α的值不能过大是因为一旦α的值过大可能就一部迈过局部最优点