梯度下降算法可以用在更一般的问题上,比如计算minimize J(θ0…θn),用以优化代价函数。
不断地改变θ0和θ1的值,直到代价函数J达到最小值。
梯度下降法的一大特点就是,不同位置出发,得到的可能是局部最优解,而非整体最优解。
repeat until convergence -> 重复执行,直到收敛
:=代表赋值,=代表真假判断
α称为学习率,控制以多大的幅度更新参数θj,即控制我们每次走一步步数的大小。
α越大,梯度下降越快。
会用到偏导数和导数的知识。
梯度下降中,θ0, θ1…θn都是同步更新的,不能将刚更新的值用来计算下一个参数。
单参数简单实例
假设我们想最小化的函数只有一个参