4.1 多维特征
模型可以有更多的特征,而不是单一的。
n代表特征的数量。
X(i)代表第i个特征实例,是特征矩阵中的第i行,是个向量。
代表特征矩阵中的第i行中的第j个特征。
支持多变量的假设h可以表示为:
有n+1个参数和n个变量,为了方便我们使x0=1,则公式转化为:
此时,模型中参数为n+1维向量,特征矩阵X的维度使m*(n+1),公式可以简化为:
4.2 多变量梯度下降
在多变量线性回归中,我们构建一个代价函数,为所有建模误差的平方和。
即:
其中,
我们的目标是找出使得目标函数最小的参数,多变量线性回归的梯度下降算法如下:
4.3 梯度下降法实践1-特征缩放
在面对多维特征时,要保证特征具有相近的尺度,这可以使梯度下降算法能更快的收敛。
例如,当一个特征值范围为0-2000,而另一个为0-5,这样,梯度下降算法需要非常多次的迭代才能收敛。
解决的办法是是尝试将所有特征的尺度都尽量缩放到-1到1之间。
4.4 梯度下降法实践2-学习率
梯度下降算法迭代的次数根据模型的不同而不同,可以绘制图像来观察何时收敛。
梯度下降算法的每次迭代受到学习率的影响,如果学习率过小,则达到收敛所需的迭代次数会非常高;如果学习率过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。
4.5 特征和多项式回归
线性回归并不适应所有模型,有时需要曲线来适应数据。
4.6 正规方程
正规方程是通过求解导数方程来找出使得代价函数最小的参数
假设我们的训练集特征矩阵为X,并且训练集结果为向量y,则利用正规方程解出向量
比较一下梯度下降和正规方程
只要特征变量的数目不大,正规方程是一个很好的计算方法。