单变量回归(包含假设、参数、损失函数、目标函数)
梯度下降法
迭代次数
J
和
迭代次数:
过少可能使得算法还没有收敛就停止,
过多导致资源(时间等)的浪费;
α−learningrate:
如果过小,使得每次迭代时theta的变化量过小,从而算法收敛过慢,换言之需要增加迭代次数使得算法收敛;
如果过大,使得每次迭代时theta的变化量过大,可能在变化(迭代)过程中越过最优(收敛)点。
梯度下降:特征量即使很大,也能比较良好的进行计算,但是需要选择学习速率α和多次迭代
正规方程:不用选择学习速率(当然也不需要进行变量的缩放),也不用进行迭代,但是当特征量很多的时候,计算就很慢,求nxn的矩阵的逆矩阵,时间复杂度相当于n^3
按照andrew Ng的话,如果小于10000,一般现在正规方程,否则选择梯度下降.
[1].Andrew NG. CS229 Lecture Note