week2-2.Multivarite Linear Regression
一、Multiple Features
多变量(multiple features/variable)的一些定义:
改写后的假设:
二、Gradient Descent for Multiple Variables
将theta0、theta1······thetan看做一个n+1维的theta向量;
将J看做theta向量的函数。
只有一个变量/特征值(n=1)与有多个变量(n>=1)时梯度下降的计算方法:
三、Gradient Descent in Practice I-Feature Scaling
特征缩放(features scaling)
使不同特征的取值范围变得接近,从而使算法更快收敛,迭代次数减少:
这里将特征值除以它的最大值。
特征/变量的取值范围不能太大也不能太小:
均值归一化(mean normalization):
四、Gradient Descent in Practice II-Learning Rate
如何检测梯度下降算法是否已经收敛:
建议看图来判断算法是否收敛/正常工作。
代价函数变化不正常时通常需要重新选择较小的学习率alpha:
如何合理选择学习率alpha?
从小的数开始,不断*3,在使算法合理快速收敛的前提下,选择尽可能大的学习率alpha:
五、Feature and Polynomial Regression
多项式回归(polynomial regression)
二次拟合最后曲线会降->也许应该改用三次,此时更应该注意对数据进行标准化。
也可用1/2次拟合。