Linear Regression with Multiple Variables
=====================================multiple-features====================================
1、特征:
注: Hypothesis 假设
Patameters 参数
Costfunction 代价函数
=============================gradient-descent-for-multiple-variables==========================
2、梯度下降算法
3、单变量和多变量梯度下降算法的不同
===================================-feature-scaling=======================================
4、特征缩放
注:如果x1的范围是0-2000,x2的范围是1-5,那么costfunction如左图所示,其导致的结果就是梯度下降算法需 要运行很多次数才可以找到局部最优解。
如果x1的范围是0-1,x2的范围是0-1,那么costfunction的范围如右图所示,costfunction只需要很少的运 行次数就可以找到局部最优解
注:最好使每个特征的值在[0,1]的范围内,不要太大,也不要太小,当然在[-3,3],[-1/3,1/3]的范围是可以接受的。
如果特征值的范围相似也是没有问题的。
注:(x-u)/s来统一规划特征值的范围,u是特征值的平均数,s是特征值的(max-min)
======================================learning-rate=======================================
5、梯度下降算法的正确运行
注:学习率α要取比较小的值,但是不要太小
注:如果每次减少的步长少于10的-3次方,则发出警告
6、正规方程
注:另一种求theta的方法,一种是梯度下降
注:遇到不可逆情况的原因,1、多余的特征,2、特征太多