吴恩达机器学习笔记（二）

最新推荐文章于 2024-10-01 23:00:34 发布

上官永石

最新推荐文章于 2024-10-01 23:00:34 发布

阅读量240

点赞数

分类专栏：吴恩达机器学习

本文链接：https://blog.csdn.net/qq_36793268/article/details/117168629

版权

机器学习人工智能

吴恩达机器学习专栏收录该内容

14 篇文章 5 订阅

订阅专栏

一、多元线性回归

1.1 多元线性回归的假设函数

在前面一部分的学习中，我们对训练集只考虑了单一的特征。对于房价预测来说，如下所示，我们只是使用单一的因素——房子面积对房价进行预测，其中的假设函数也只有一个因变量：
$h_\theta(x)=\theta_0+\theta_1 x$

在这里插入图片描述

但是在实际生活中，我们对一个指标的预测往往需要考虑多个元素。如下图所示，对房价的预测考虑了四个方面的因素，包括房子面积、房间个数、房子所在层数与房子存在的年限，我们可以使用 $x_1、x_2、x_3、x_4$ 分别表示每个因素，即特征， $y$ 表示我们预测得到的变量——房子价格。
在这里插入图片描述
所以我们可以用向量表示包含多个特征的训练集，对于上面的房价预测，我们可以将第 $1$ 个训练样本表示为 $x^{(1)}=\left[ \begin{matrix} 2014 \\ 5 \\ 1 \\ 45 \end{matrix} \right]$ ，称为第 $1$ 个特征向量，我们可以使用 $\boldsymbol{x^{(i)}_j}$ 表示第 $i$ 个特征向量中的第 $j$ 个元素。

当我们拥有了多个特征量后，单一变量的假设函数已经不能满足我们的需要了，所以我们需要引入多个变量的假设函数，对于有 $n$ 个特征量的数据集，我们可以将假设函数表示如下：
$h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2+\cdots + \theta_nx_n$

为了更加简便的表示上式，我们可以用两个向量内积的形式表示，我们首先设 $x_0 = 1$ ，那么 $x$ 就可以表示为 $x=\left[ \begin{matrix} x_0 \\ x_1 \\ x_2 \\ \vdots \\ x_n \end{matrix} \right]$ ，而其中的参数 $\theta$ 可以表示为 $\theta=\left[ \begin{matrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \vdots \\ \theta_n \end{matrix} \right]$ ，因此，假设函数可以表示为：

$\begin{aligned} h_\theta(x) &= \theta_0 + \theta_1x_1 + \theta_2x_2+\cdots + \theta_nx_n \\ & = \theta_0 x_0 + \theta_1x_1 + \theta_2x_2+\cdots + \theta_nx_n \\ & = \theta^T x \end{aligned}$

其中 $\theta^T$ 表示 $\theta$ 的转置。上式其实就表示向量 $\theta$ 和 $x$ 的内积。假设函数满足以上形式的模型就成为多元线性回归模型，多元就是表示有多个因变量。

1.2 多元线性回归的梯度下降

通过上面的讨论，我们得到如下的假设函数：
$h_\theta(x) = \theta^Tx=\theta_0 x_0 + \theta_1x_1 + \theta_2x_2+\cdots + \theta_nx_n$

其中我们用 $\theta$ 表示参数向量，用 $x$ 表示特征向量。对于有 $n$ 个特征的训练集， $\theta$ 和 $x$ 都是 $n + 1$ 维的，那么对于之前的代价函数：
$J(\theta_0,\theta_1,\cdots,\theta_n) = \frac{1}{2m} \sum^m_{i=1} \left[ h(x^{(i)})-y^{(i)} \right ] ^2$

我们就可以简写为：
$J(\theta)=\frac{1}{2m}= \frac{1}{2m} \sum^m_{i=1} \left[ h(x^{(i)})-y^{(i)} \right ] ^2$

其表示关于参数向量 $\theta$ 的函数。

那么梯度下降就可以表示为关于参数向量 $\theta$ 中每个元素的导数的式子：

do{
$\qquad\theta_j = \theta_j-\alpha\frac{\partial}{\partial \theta_j} J(\theta)$
} while(!convergence)

从上面的式子我们也可以看出，其实对于多个特征的训练集，我们包含的 $\theta$ 参数也会变多，那么类比于之前的梯度下降算法，我们也可以分别对每个参数 $\theta_i$ 更新，首先我们先写出我们的代价函数：
$\begin{aligned}J(\theta) & =\frac{1}{2m} \sum^m_{i=1} \left[ h(x^{(i)})-y^{(i)} \right ] ^2 \\ & =\frac{1}{2m} \sum^m_{i=1} \left[ \theta_0 + \theta_1x^{(i)}_1 + \theta_2x^{(i)}_2 + \cdots + \theta_nx^{(i)}_n - y^{(i)} \right ] ^2 \end{aligned}$

其中，上标 $i$ 表示训练集中的第 $i$ 个样本，下标 $n$ 表示该样本对应的特征向量中的第 $n$ 个元素，因为我们要分别更新每个参数 $\theta_i$ ，所以我们就要对每个 $\theta_i$ 求导，如果我们记 $x^{(i)}_0 = 1$ ，则上式对 $\theta_n$ 的偏导我们可以表示为：
$\frac{\partial}{\partial\theta_n}J(\theta)=\frac{1}{m}\sum^m_{i=1}\left[h_{\theta}(x^{(i)})-y^{(i)}\right]x^{(i)}_n$

因此我们就可以得到对多元线性回归的梯度更新方式：

do{
$\qquad\theta_0 = \theta_0-\alpha\frac{1}{m}\sum^m_{i=1}\left[h_{\theta}(x^{(i)})-y^{(i)}\right]x_0^{(i)}$
$\qquad\theta_1 = \theta_1-\alpha\frac{1}{m}\sum^m_{i=1}\left[h_{\theta}(x^{(i)})-y^{(i)}\right]x_1^{(i)}$
$\qquad\vdots$
$\qquad\theta_n = \theta_n-\alpha\frac{1}{m}\sum^m_{i=1}\left[h_{\theta}(x^{(i)})-y^{(i)}\right]x_n^{(i)}$
} while(!convergence)

1.3 特征缩放

在机器学习中对于有多个特征的数据集，如果能够保证特征的值都在相近的范围内，那么梯度下降算法将会更快的收敛。

先举个例子，如果在房价预测中包含两个特征： $x_1$ 是房子面积（ $0-2000m^2$ ）和 $x_2$ 是房间个数（ $1 - 5$ ），这里我们可以看出，两个特征的取值范围相差特别大，这时如果对整个模型进行梯度下降就会造成收敛过慢的问题。

如果我们令只有两个特征的模型的假设函数中 $\theta_0 = 0$ ，那么我们就能够根据 $\theta_1$ 和 $\theta_2$ 做出如下蓝色的代价函数等高线，因为 $\theta_1$ 和 $\theta_2$ 之间的范围相差过大，就会造成等高线非常的瘦高，这样在梯度下降时候，因为 $\theta_1$ 的取值范围过小，所以其对应的参数 $\theta_1$ 在很小范围内变化时候就会导致整个代价函数波动较大，所以会造成如下图箭头所示的梯度不断地变化，最终需要很多次才能达到收敛。
在这里插入图片描述
在这种情况下，一般是通过特征缩放来让梯度的收敛更快。例如对于上面的房子面积和房间个数两个特征，我们可以分别对这两个特征进入如下的处理：
$\begin{aligned}x_1 &= \frac{x_1}{2000} \\ x_2 &= \frac{x_2}{5}\end{aligned}$

也就是将其中的每个值都除以最大值，这样每个值都被 归一化 到 $[0, 1]$ 之间了，这时得到的等高线如下图所示：
在这里插入图片描述
可以看到对这种更加均衡的等高线进行梯度优化时会很快的找到收敛点。

更一般的说，特征缩放 通常将特征的取值约束在 $[- 1, 1]$ 范围内，当然，特征的取值并不一定要完全在相同的范围内，只要两个特征的取值范围相差并不是很大就不会造成梯度收敛过慢的问题。

如果出现了上面所示的两个特征取值范围过大，一种方式是上面提到的 归一化，还有一种处理方式是 均值归一化，其过程处理过程如下：
$x_i = \frac{x_i-\mu_i}{s_i}$

其中 $\mu_i$ 表示 $x_i$ 的均值， $s_i$ 表示 $x_i$ 的标准差或者 $max(x_i)-\min(x_i)$ 。

综上所述，特征缩放就是实现将取值范围不同的特征归一化到相同的范围，从而减少梯度下降中迭代的次数，提高梯度下降的速度。

1.4 梯度下降中的技巧

在机器学习中我们需要保证梯度下降算法在工作中不出现意外，梯度下降的目的是通过优化其中的参数 $\theta$ 将代价函数最小化，随着迭代次数的增加，我们希望得到的关于代价函数的曲线如下图所示：
在这里插入图片描述
上图横轴表示梯度下降中的迭代次数，纵轴表示在第 $n$ 次迭代的过程中根据当前的 $\theta$ 计算得到的代价函数的值。对于一个正确的梯度下降算法，在每次迭代后， $J(\theta)$ 都应该有所下降，当 $J(\theta)$ 不再大幅度下降时，表示梯度下降已经达到收敛。上图中在 300 轮之后代价函数已经不再有很大的波动，也就表示已经趋于收敛。

除了通过上图的曲线判断收敛，还有一种方式是通过 自动收敛测试，该方法需要选择一个阈值 $\boldsymbol{\epsilon}$ ，如果 $J(\theta)$ 在每次的迭代中减少的量小于这个阈值，就表示梯度下降达到了收敛。但是对于不同的学习任务，这个收敛阈值的选择是很困难的，因此最好的方式还是通过上图的曲线进行收敛判断。

梯度下降的公式中有一个参数就是学习率 $\alpha$ ，如下所示：
$\theta_j = \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$

前面已经说过，选择不同的 $\alpha$ 会对梯度下降造成不同的影响。

通过 $J(\theta)$ 的曲线图，我们还可以对算法是否在正常工作做出判断，如下左图所示，如果我们得到的代价函数曲线是一直上升的，也就是代价函数的值随着迭代的次数逐渐增大，这其实就表示我们的学习率 $\alpha$ 的选择过大，造成迭代过程中参数一次次越过 $J(\theta)$ 的最底点，从而引起代价函数的值增大，如下右图所示。

在这里插入图片描述

如果我们得到的 $J(\theta)$ 的曲线如下图所示，其实也是表示选择的学习率 $\alpha$ 过大。
在这里插入图片描述
已经有数学证明，只要选择的学习率 $\alpha$ 足够小，就能够让代价函数在每次迭代中不断减小，但是我们也不能选择太小的学习率，因为这会造成梯度下降的过程收敛过慢。

学习率只是在整个模型开始时候选择，我们可以选择一个比较小的学习率，在训练过程中不改变，但是这可能会造成时间的浪费，对于比较大的样本集，可以选择在刚开始时候选择比较大的学习率，随着迭代次数的减少逐渐减少学习率。

1.5 特征选择与多项式回归

1.5.1 特征选择

首先我们看一个例子，如果我们只有房子的长（frontage）和宽（depth）两个特征，按照之前的讨论，我们需要建立如下的假设函数：
$h_{\theta}(x)=\theta_0 + \theta_1\times frontage + \theta_2 \times depth$

但是房价可能只与房子的面积相关，因此我们可以创造一个面积特征，从而构造一个更加合理的模型，首先我们令面积：
$\times depth$

之后我们就能直接使用面积这一个特征构造假设函数：
$h_{\theta}(x)=\theta_0 + \theta_1x$

从这个例子可以看出，我们通过从原有的特征里进行选择，定义新的特征可以得到一个更好的模型。

1.5.2 多项式回归

类似与特征选择，我们可以通过 多项式函数 ，使用线性回归的方式来拟合非常复杂的函数，甚至是非线性函数，这就是 多项式回归。

对于如下住房价格的数据集，可能有多个不同的模型用于拟合，

在这里插入图片描述
使用一元的线性回归并不能很好的拟合这些数据，所以我们可以选择如下的二次函数或三次函数对数据进行拟合
$\begin{aligned}h_\theta(x) &=\theta_0 + \theta_1 x +\theta_2x^2 \\ h_\theta(x) & =\theta_0 + \theta_1 x +\theta_2x^2+\theta_3x^3\end{aligned}$

但是如下图所示，一个二次函数的模型可能并不能很好的对数据做出预测

在这里插入图片描述

所以我们可能需要如下所示的三次函数来更好的拟合数据：

在这里插入图片描述
所以我们就可以构建如下的假设函数：
$\begin{aligned}h_\theta(x) &=\theta_0 + \theta_1 x_1 +\theta_2x_2 +\theta_3x_3 \\ & =\theta_0 + \theta_1 (size) +\theta_2(size)^2+\theta_3(size)^3\end{aligned}$

但是需要注意的是，我们这样构建模型后，特征缩放的作用就更加明显了，因为如果 $x_1$ 的取值范围是 $[1, 1000]$ ，那么 $x_2$ 的取值范围就会达到 $[1, 1000000]$ ，而 $x_3$ 的取值范围会达到 $1,10^{9}]$ ，如果不进行特征缩放，那么梯度收敛的过程会非常慢。

除此之外，我们还可以根据数据创建平方根构成的多项式回归，即

$h_\theta(x)=\theta_0+\theta_1(size)+\theta_2\sqrt{(size)}$

这是因为平方根函数的图像大致如下，可以更好的拟合数据
在这里插入图片描述

二、正规方程

前面我们对代价函数求最小值都是使用梯度更新的方式，这里提出一种正规方程的算法，可以不再通过下面的梯度迭代的方式求使得代价函数最小的参数 $\theta$ ，通过正规方程的方法，可以直接获得最优值。
在这里插入图片描述

2.1 正规方程

在微积分中，对于有多个参数的表达式，我们可以直接分别对每个参数求偏导，令偏导数等于 0 ，这样就可以直接得到使得整体表达式最小的参数值。如下所示的表达式：
$J(\theta_0,\theta_1,\cdots,\theta_n) = \frac{1}{2m} \sum^m_{i=1} \left[ h_\theta(x^{(i)})-y^{(i)} \right ] ^2$

我们可以直接分别对每个 $\theta_n$ 求导，并令每个 $\frac{\partial}{\partial\theta_n}J(\theta)=0,$ ，求出此时的 $\theta_n$ 的值，就是我们最终要求的解。

正规方程也是基于求导的方式，不过并不需要一步一步的计算导数，而是通过矩阵直接求解最优的参数值。

考虑如下的训练集，其中包含 $m = 4$ 个样本，每个数据有 $n = 4$ 个特征，
在这里插入图片描述
首先我们先对以上数据加入一列 $x_0=1$ ，如下所示：

这样我们就可以根据数据集的所有特征构建一个 特征矩阵，该特征矩阵包含所有训练样本的特征变量，是一个 $m\times (n+1)$ 的矩阵，如下所示：
$X=\left[\begin{matrix} 1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36 \end{matrix} \right]$

同时我们对样本的标签也进行矩阵化，得到一个 $m$ 维的向量，如下：
$y=\left[\begin{matrix} 460 \\ 232 \\ 315 \\ 178 \end{matrix} \right]$

之后我们令参数向量 $\boldsymbol{\theta = (X^TX)^{-1}X^Ty}$ ，这样我们就能够计算出使得代价函数最小的 $\theta$ 参数向量。

根据上面的描述，我们可以获得更加一般的描述，对于有 $m$ 个样本的数据集 $\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\}$ ，其中每个 $x^{(i)}=\left[\begin{matrix} x^{(i)}_0 \\ x^{(i)}_1 \\ x^{(i)}_2 \\ \vdots \\ x^{(i)}_n \end{matrix} \right]$ 是一个 $n + 1$ 维的特征向量，其中 $x^{(i)}_0 = 1$ ，这样我们就可以构建一个特征矩阵 X，表示为：
$X=\left[\begin{matrix} (x^{(1)})^T \\ (x^{(2)})^T \\ (x^{(3)})^T \\ \vdots \\ (x^{(m)})^T \end{matrix} \right]$

标签的特征向量 $y$ 可以表示为：
$y=\left[\begin{matrix} y^{(1)} \\ y^{(2)} \\ y^{(3)} \\ \vdots y^{(m)} \end{matrix} \right]$

为什么我们要构造这样的等式呢？我们首先看对于一个样本的假设函数：
$h_\theta(x)=\theta_0 x_0 + \theta_1x_1 + \theta_2x_2+\cdots + \theta_nx_n$

可以发现其表示的就是参数 $\theta$ 和特征向量 $x$ 的乘积，那么我们把上面的特征矩阵 $X$ 和 $\theta$ 写成相乘的形式：
$X\theta =y \quad \Rightarrow \quad \left[ \begin{matrix} x^{(1)}_0 & x^{(1)}_1 & x^{(1)}_2 & \cdots & x^{(1)}_n &\\ x^{(2)}_0 & x^{(2)}_1 & x^{(2)}_2 & \cdots & x^{(2)}_n \\ x^{(3)}_0 & x^{(3)}_1 & x^{(3)}_2 & \cdots & x^{(3)}_n \\ \vdots & \vdots & \vdots & \ddots & \vdots & \\ x^{(m)}_0 & x^{(m)}_1 & x^{(m)}_2 & \cdots & x^{(m)}_n \end{matrix}\right] \left[\begin{matrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \theta_3 \\ \vdots \\ \theta_n \end{matrix}\right] =\left[\begin{matrix} y^{(1)} \\ y^{(2)} \\ y^{(3)} \\ \vdots \\ y^{(m)} \end{matrix} \right]$

如果我们将矩阵相乘，比如 $X$ 的第一行相乘得到的结果为：
$\theta_0 x^{(1)}_0 + \theta_1x^{(1)}_1 + \theta_2x^{(1)}_2+\cdots + \theta_nx^{(1)}_n = y^{(1)}$

可以发现，我们只是将每个假设函数写成了矩阵相乘的形式。

为什么满足代价函数最小的 $\boldsymbol{\theta = (X^TX)^{-1}X^Ty}$ 呢？这是因为当我们将代价函数也写成矩阵形式后，求代价函数相对于参数向量 $\theta$ 的导数，并令该导数为 $0$ 就可以求出 $\boldsymbol{\theta = (X^TX)^{-1}X^Ty}$ ，这些详细的步骤会在后面讲解。

这里我们需要注意的是，在梯度下降中我们为了让梯度下降的更快，引入了特征缩放，但是如果使用正规方程的方法求解使代价函数最小的参数向量 $\theta$ ，我们就不需要通过特征缩放将所有特征变换到相近的范围了，因为特征缩放主要的目的是让梯度下降更快的收敛，但是我们使用正规方程并不需要进行反复的求解梯度，所以特征取值的范围对其并没有影响。

梯度下降需要选择学习率 $\alpha$ 和进行多次迭代，但是正规方程的方法并不需要这些，只需要一步的计算就可以得到最优的参数值，但是正规变换在参数量过多时候，会造成矩阵的运算时间过长，矩阵运算的时间复杂度一般为 $O(n^3)$ ，所以在参数量过多时候选择梯度下降会比正规方程的方法更好。

正规方程对于线性回归这个特定的模型很有用，但是对于更加复杂的学习算法，正规方程并不适用，所以梯度下降算法仍然是一个更普遍的方法。

2.2 正规方程在矩阵不可逆情况下的解决方法

在我们使用正规方程 $\boldsymbol{\theta = (X^TX)^{-1}X^Ty}$ 时候，我们需要求解 $X^TX$ 的逆矩阵，但是有可能的情况是该矩阵是不可逆的，如果该该矩阵是不可逆的，主要有两个可能的原因：

参与学习的特征中出现了多余特征
加入特征中存在两个特征，其中一个特征 $x_2 = c \times x_1$ ，那么我们构成的特征矩阵 $X$ 就会包含两列成比例，这就会造成行列式为 0 ，从而造成矩阵不可逆。这种情况可以选择删除一部分多余的特征。
数据集中样本的数量 m 小于特征的个数 n
这会造成参数向量的个数（n+1）大于样本的个数，要想从 $m$ 个较小的样本中找到 $n + 1$ 个大的参数，就会有可能造成上卖弄的矩阵不可逆。在这种情况下可以选择删除一部分参数，或者使用后面介绍的正则化方式处理数据集。