1.不简化时
先假设该模型有两个特征的问题,X1和X2,X1是房屋面积,约为0-2000,X2是卧室的数量,约为1-5
当代价函数的等值线又瘦又高时,梯度下降的就越慢并反复来回震荡
2.当简化后
如图,当两个特征的问题都经过处理后,此时的代价函数的等值线如图,这时候的梯度下降就会很快
最好是将特征的取值约束到-1-1之间,只要特征之间的取值不要相差太大即可
均值归一化
上面的几个公式仍然不是最好的,这里介绍一下均值归一化,如图
先减去特征的平均值,再除以特征的取值的最大值
afa的取值问题
如果学习率afa太小,则梯度下降的很缓慢,相反,afa太大,可能会跳过最小点,来回反复震荡,如图,基本3倍的调试afa的值
利用矩阵来求θ的值:正规方程法
即X*θ=Y
当X^TX
不可逆时,可能是样本的数量m小于单个样本中的属性个数n,即行数小于列数就不能是满秩,在matlab中使用 pinv(X^TX)也可以求出他的逆