机器学习 Machine Learning（by Andrew Ng）----第三章多变量线性回归(Linear Regression with multiple variable)

本文链接：https://blog.csdn.net/A2275037460/article/details/51993957

第三章多变量线性回归(Linear Regression with multiple variable)

<多维特征(Multiple Features)>
<多变量梯度下降(Gradient Descent for Multiple Variables) >
<特征缩放(Feature Scaling)>
<学习率(Learning Rate)>
<特征和多项式回归(Features and Polynomial Regression)>
<正规方程(Normal Equation)>
<正规方程及不可逆性(Normal Equation Noninvertibility)>

1.多维特征(Multiple Features)

我们已经探讨了单变量/特征的回归模型，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为（x₁,x₂,...,x_n）。

如上图可知：

支持多变量的假设 h 表示为：

此时模型中的参数θ是一个n+1维的向量，任何一个训练实例X也都是n+1维的向量，特征矩阵的维度是m*(n+1)。因此公式可以简化为：，

其中上标T代表矩阵转置。

2.多变量梯度下降(Gradient Descent for Multiple Variables)

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和，即：

其中：

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。

我们开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。要注意的是theta(1),...,theta(n)要同时更新。

3.特征缩放(Feature Scaling)

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000 平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。如图：

最简单的方法是：

其中是平均值，s_n 是标准差,等于max减去min。

4.学习率(Learning Rate)

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

梯度下降算法中另一关键点就是机器学习率的设计：设计准则是保证每一步迭代后都保证能使cost function下降。

下面我们来分析下图中出现的问题：

可以看到，图中的三个J(theta)的值并没有正确的随着迭代次数的增加而减小。所以我们要正确选择学习率α。在选择α时要尽量选择更小的α。但是也不能太小，如果太小，就会导致收敛速度太慢。

总结选取学习率 α的方法：

梯度下降算法的每次迭代受到学习率的影响，如果学习率α过小，则达到收敛所需的迭代次数会非常高；如果学习率α过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率： α=0.01，0.03，0.1，0.3，1，3，10

5.特征和多项式回归(Features and Polynomial Regression)

对于房价问题，假设我们的输入为一座房子的大小size，输出为该房子的价格price，对其进行多项式拟合，我们有两个选择，二次方程或者三次方程。考虑到二次方程的话总会到最高点后随着size的变大，price却不断变低，不合常理；因此选用三次方程进行拟合。

这个问题我们可以使用Regularization法，或者有另一种拟合方程，如图粉红色曲线拟合所示：

6.正规方程(Normal Equation)

到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方程(Normal Equation)方法是更好的解决方案。它采用线性代数中非迭代的方法。如：

正规方程是通过求解下面的方程来找出使得代价函数最小的参数的：假设我们的训练集特征矩阵为 X（包含了 x0=1）并且我们的训练集结果为向量y，则利用正规方程解出向量，上标T代表矩阵转置，上标-1代表矩阵的逆。设矩阵A=X^TX，则：(X^TX)^-1=A^-1。

我们可以从这里获得数据。需要注意的是x0通常设为1，即x0=1.

下面我们来看看数学公式分析过程：

根据上面的公式我们进行计算表示可以得到下图：

在 Octave 中，正规方程写作：pinv(X'*X)*X'*y

注：对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。

最后，我们将梯度下降法和正规方程进行比较：

我们整理后可得到下表。

梯度下降	正规方程
需要选择学习率α	不需要
需要多次迭代	一次运算得出
当特征数量n大时也能较好适用	需要计算(X^TX)^-1 如果特征数量n较大则运算代价大，因为矩阵逆的计算时间复杂度为O(n³)，通常来说当n小于10000时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

总结一下，只要特征变量的数目并不大，标准方程是一个很好的计算参数θ的替代方法。具体地说，只要特征变量数量小于一万，我通常使用标准方程法，而不使用梯度下降法。

随着我们要讲的学习算法越来越复杂，例如，当我们讲到分类算法，像逻辑回归算法，我们会看到，实际上对于那些算法，并不能使用标准方程法。对于那些更复杂的学习算法，我们将不得不仍然使用梯度下降法。因此，梯度下降法是一个非常有用的算法，可以用在有大量特征变量的线性回归问题。或者我们以后在课程中，会讲到的一些其他的算法，因为标准方程法不适合或者不能用在它们上。但对于这个特定的线性回归模型，标准方程法是一个比梯度下降法更快的替代算法。所以，根据具体的问题，以及你的特征变量的数量，这两种算法都是值得学习的。

7.正规方程及不可逆性(Normal Equation Noninvertibility)

我们已知，对于有m个样本，每个拥有n个feature的一个训练集，有X是m×(n+1)的矩阵，X^TX是(n+1)×(n+1)的方阵，那么对于参数θ的计算就出现了一个问题，如果|X^TX|=0,即X^TX不可求逆矩阵怎么办？这时可以进行冗余feature的删除（m<=n的情况，feature过多）：