α过小,梯度下降会很慢
α过大,梯度下降可能会过冲(overshoot)且永远不会达到最小值;可能会不收敛,甚至发散
接近一个局部最小值时,导数将变小,学习率不会变大
偏导数求导过程(老师也太细心了!有教无类):
批量梯度下降(bashed gradient descent):每次都用所有的训练示例
α过小,梯度下降会很慢
α过大,梯度下降可能会过冲(overshoot)且永远不会达到最小值;可能会不收敛,甚至发散
接近一个局部最小值时,导数将变小,学习率不会变大
偏导数求导过程(老师也太细心了!有教无类):
批量梯度下降(bashed gradient descent):每次都用所有的训练示例