机器学习笔记之线性回归

静静的喝酒

已于 2023-07-21 10:42:05 修改

阅读量577

点赞数 2

分类专栏：机器学习文章标签：线性回归最小二乘法标准矩阵形式机器学习

于 2022-08-16 19:51:24 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126367531

版权

机器学习专栏收录该内容

195 篇文章 231 订阅

订阅专栏

机器学习笔记之线性回归

示例：
构建一个数据点集合表示如下：
请添加图片描述
通过拟合一条线，使得各样本点到函数图像映射结果之间距离之和最短。

如何构建这条红色线？或者说，在已知样本(蓝色点)的条件下，如何利用样本信息，获取模型参数，从而构建模型来拟合样本？
我们将拟合自变量 $x$ 与因变量 $y$ 之间关系的函数称为拟合方程，最小二乘法是常用于求解拟合方程参数的一种工具。

下面将介绍基于自变量 $x$ 与因变量 $y$ 的条件下，使用最小二乘法求解拟合方程参数的过程。

符号定义

定义数据集合 $\mathcal D$ 中包含 $N$ 个样本，每个样本包含一个自变量 $x$ 和因变量 $y$ ：
$\mathcal D = \left\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)}) \right\} = \left\{(x^{(i)},y^{(i)}) \right\}_{i=1}^N$

其中，任意自变量 $x^{(i)} \in \left\{x^{(1)},x^{(2)},\cdots,x^{(N)} \right\}$ 是 $p$ 维随机变量，因变量 $y$ 是一个标量、实数：
$x^{(i)} = \begin{pmatrix}x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)}\end{pmatrix}$

记作： $x^{(i)} \in \mathbb R^{p},y^{(i)} \in \mathbb R(i=1,2,\cdots,N)$

将自变量从数据集合中分离出来，用 $\mathcal X$ 进行表示：
$\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T}$
根据上面的介绍，每一个自变量 $x^{(i)}(1=1,2,\cdots,N)$ 都是一个 $p$ 维列向量。因此，对上述结果继续展开：
$\mathcal X = \begin{pmatrix} {x^{(1)}}^{T} \\ {x^{(2)}}^{T} \\ \vdots \\ {x^{(N)}}^{T} \end{pmatrix} = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \\ \end{pmatrix}_{N \times p}$
同理，因变量 $y$ 的集合 $\mathcal Y$ 表示如下：
$\mathcal Y$ 是一个列向量。
$\mathcal Y = (y^{(1)},y^{(2)},\cdots,y^{(N)})^{T}|_{N \times 1}$

一般情况下，将拟合方程定义为：
这里将偏置项‘归纳进’ $\mathcal W^{T}x$ 内部。
$f(\mathcal W) = \mathcal W^{T}x$
其中，拟合方程参数 $\mathcal W$ 是 $p$ 维列向量：
维度为p的目的是要与‘自变量’ $x^{(i)}(i=1,2,\cdots,N)$ 进行线性运算。
$\mathcal W = \begin{pmatrix} w_1 \\ w_2 \\ \vdots \\ w_p \end{pmatrix}$

最小二乘法主要思想

针对数据集合 $\mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N$ ，计算基于样本 $x^{(i)}$ 的拟合方程结果 $\mathcal W^{T}x^{(i)}$ 和因变量 $y^{(i)}$ 之间的差距；对样本集合中所有样本的差距进行求和，当求和结果数值最小时，拟合方程 $f(\mathcal W)$ 对数据集合中样本的拟合效果最优。

最小二乘法求解拟合方程的模型参数

最小二乘法公式表达如下：
定义一个函数：该函数表示所有差距和的表现形式：
通常称这种函数为‘策略’——只是一种判别工具；也通常称它为‘损失函数’。
$\mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} - y^{(i)}||^2$
由于 $x^{(i)},y^{(i)})$ 是数据集合中的具体样本，是已知量；因此，最小二乘法可以看成关于拟合方程参数 $\mathcal W$ 的函数形式。

继续观察上式，标准式中记录的是向量模的平方。由于 $x^{(i)}$ 是一个 $p$ 维列向量，则有：
$\mathcal W^{T}x^{(i)} -y^{(i)} = (w_1,w_2,\cdots,w_p)\begin{pmatrix}x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)}\end{pmatrix} - y^{(i)}= w_1x_1^{(i)} + w_2x_2^{(i)} + \cdots + w_p x_p^{(i)} - y^{(i)}$

该结果就是一个实数。因此，上面公式可直接表示为：
实际上， $\mathcal L(\mathcal W)$ 自身也是一个实数(标量)。
$\mathcal L(\mathcal W) = \sum_{i=1}^N \left(\mathcal W^{T}x^{(i)} - y^{(i)} \right)^2$

将上述公式表达为符号定义中的矩阵运算格式：

将上述公式右侧展开，得到如下结果：
$\left(\mathcal W^{T}x^{(1)} - y^{(1)} \right)^2 + \left(\mathcal W^{T}x^{(2)} - y^{(2)} \right)^2 + \cdots + \left(\mathcal W^{T}x^{(N)} - y^{(N)} \right)^2$
将上述公式看作为两向量的乘积格式。则有：
$\left(\mathcal W^{T}x^{(1)} - y^{(1)},\mathcal W^{T}x^{(2)} - y^{(2)},\cdots,\mathcal W^{T}x^{(N)} - y^{(N)}\right)\begin{pmatrix}\mathcal W^{T}x^{(1)} - y^{(1)} \\ \mathcal W^{T}x^{(2)} - y^{(2)} \\ \vdots \\ \mathcal W^{T}x^{(N)} - y^{(N)}\end{pmatrix}$
- 观察第一项：可以将该向量向量写成两向量相减的形式：
  $\left(\mathcal W^{T}x^{(1)},\mathcal W^{T}x^{(2)},\cdots,\mathcal W^{T}x^{(N)}\right) - (y^{(1)},y^{(2)},\cdots,y^{(N)})$
- 继续化简，将 $\mathcal W^{T}$ 提出：
  注意公式中的行向量形式，使用 $\mathcal X^{T},\mathcal Y^{T}$ 替换。
  $\begin{aligned} \mathcal W^{T}(x^{(1)},x^{(2)},\cdots,x^{(N)}) - (y^{(1)},y^{(2)},\cdots,y^{(N)}) = \mathcal W^{T}\mathcal X^{T} - \mathcal Y^{T} \end{aligned}$
- 观察第二项，由于第二项就是第一项的转置，直接通过第一项结果进行求解：
  $(\mathcal W^{T}\mathcal X^{T} - \mathcal Y^{T})^{T} = \mathcal X \mathcal W - \mathcal Y$

至此，我们将损失函数 $\mathcal L(\mathcal W)$ 表示为如下形式：
展开~
$\begin{aligned} \mathcal L(\mathcal W) & = (\mathcal W^{T}\mathcal X^{T} - \mathcal Y^{T})(\mathcal X \mathcal W - \mathcal Y) \\ & = \mathcal W^{T}\mathcal X^{T}\mathcal X \mathcal W - \mathcal Y^{T}\mathcal X \mathcal W - \mathcal W^{T}\mathcal X^{T}\mathcal Y + \mathcal Y^{T}\mathcal Y \\ \end{aligned}$
观察中间两项： $\mathcal Y^{T}\mathcal X \mathcal W$ 和 $\mathcal W^{T}\mathcal X^{T}\mathcal Y$ ：

$\mathcal Y^{T}\mathcal X \mathcal W$ 中 $\mathcal Y^{T}$ 是 $\times p$ 维向量； $\mathcal X$ 是 $\times p$ 维向量； $\mathcal W$ 是 $\times 1$ 维向量；最终乘积结果是 $\times 1$ 维的向量，即标量、实数；
同理， $\mathcal W^{T}\mathcal X^{T}\mathcal Y$ 中 $\mathcal W^{T}$ 是 $\times p$ 维向量； $\mathcal X^{T}$ 是 $\times p$ 维向量； $\mathcal Y$ 是 $\times 1$ 维向量；最终乘积结果同样也是标量、实数。
并且， $\mathcal Y^{T}\mathcal X \mathcal W$ 和 $\mathcal W^{T}\mathcal X^{T}\mathcal Y$ 之间存在如下关系：
$(\mathcal Y^{T}\mathcal X \mathcal W)^{T} = \mathcal W^{T}\mathcal X^{T}\mathcal Y$

至此，我们得到结果：
$\mathcal W^{T}\mathcal X^{T}\mathcal Y = \mathcal Y^{T}\mathcal X \mathcal W$

因此， $\mathcal L(\mathcal W)$ 可以继续化简为：
$\mathcal L(\mathcal W) = \mathcal W^{T}\mathcal X^{T}\mathcal X \mathcal W - 2\mathcal W^{T}\mathcal X^{T}\mathcal Y + \mathcal Y^{T}\mathcal Y$

基于最小二乘法的思想，目的是求解一个最优 $\hat {\mathcal W}$ ，使得：
$\hat{\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W}\mathcal L(\mathcal W)$

基于该思路，对 $\mathcal L(\mathcal W)$ 关于 $\mathcal W$ 求导：
这里用到了矩阵求导的相关知识，大家一起去恶补矩阵论吧。
$\frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} = 2\mathcal X^{T}\mathcal X\mathcal W - 2\mathcal X^{T} \mathcal Y$
令 $\begin{aligned}\frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} \triangleq 0 \end{aligned}$ ，则有：
$\mathcal X^{T}\mathcal X\mathcal W = \mathcal X^{T}\mathcal Y \\ \mathcal W = (\mathcal X^{T} \mathcal X)^{-1}\mathcal X^{T} \mathcal Y$

至此，基于最小二乘估计算法，拟合方程 $f(\mathcal W) = \mathcal W^{T}x$ 的模型参数 $\mathcal W$ 的矩阵形式表达。

模型参数 $\mathcal W$ 的几何解释

几何解释1

观察 $\mathcal L(\mathcal W)$ 的标准式：
$\mathcal L(\mathcal W) = \sum_{i=1}^N \left(\mathcal W^{T}x^{(i)} - y^{(i)} \right)^2$

可以将其视为一个总误差：将所有误差分散在了每一个自变量中，如上图表示的箭头，箭头的长度表示误差的具体数值，这些数值有正有负(分别位于函数图像的上方与下方)。
取平方最朴素的思想即确定误差数值的符号均为正。总误差即所有所有样本构成的误差数值的总和；

几何解释2

如果将拟合函数进行变换：
$f(\mathcal W) = \mathcal W^{T}x^{(i)} ={\left[x^{(i)}\right]}^{T}\beta$

其中 $\mathcal W$ 和 $\beta$ 向量维度相同，即 $\times 1$ 。
因此，将 $x^{T}\beta$ 进行展开：
$\begin{aligned} {x^{(i)}}^{T}\beta & = \left(x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)} \right)\begin{pmatrix}\beta_1 \\ \beta_2 \\ \vdots \\\beta_p\end{pmatrix}\\ & = x_1^{(i)}\beta_1 + x_2^{(i)}\beta_2 + \cdots + x_p^{(i)}\beta_p \end{aligned}$

观察发现， ${\left[x^{(i)}\right]}^{T}\beta$ 和 $\mathcal W^{T}x^{(i)}$ 的格式相同，其结果都是一个标量、实数。如果将 ${\left[x^{(i)}\right]}^{T}\beta$ 结果与 $p$ 维空间中的原点相连，构成一个向量，可以将 $x_1^{(i)}\beta_1,x_2^{(i)}\beta_2,\cdots,x_p^{(i)}\beta_p$ 看做 $p$ 维空间中每个维度空间的分量。

同理，自变量 $x^{(i)}$ 对应的因变量 $y^{(i)}$ 同样 也是一个数值，该值与 $p$ 维空间中的原点相连也会得到一个向量。什么时候 $y^{(i)}$ 对应的向量和 ${\left[x^{(i)}\right]}^{T}\beta$ 对应的向量是最接近的：

即 ${\left[x^{(i)}\right]}^{T}\beta$ 向量在各个维度的分量均在 $y^{(i)}$ 对应向量在 $p$ 维空间中，每个维度空间中的投影上。

如果满足上述条件， $y^{(i)} - {\left[x^{(i)}\right]}^{T}\beta$ 表示 $p$ 维度空间中各维度自变量的拟合方程结果与因变量之间的距离向量。如果满足上述条件，该 距离向量 应该与 自变量 $x^{(i)}$ 向量在各维度的分量相垂直，只有垂直情况下，两向量之间距离最近。
$y^{(i)} - {\left[x^{(i)}\right]}^{T}\beta$ 不仅要和 ${\left[x^{(i)}\right]}^{T}\beta$ 相垂直，而是和 ${\left[x^{(i)}\right]}^{T}\beta$ 所在 $p$ 维超平面相垂直，因此就要和自变量的每一个维度相垂直。
则有：
两向量夹角90，向量乘积结果为0
${\left[x^{(i)}\right]}^{T} \left\{y^{(i)} - {\left[x^{(i)}\right]}^{T}\beta\right\} = 0$
同理，所有自变量 $x^{(i)}(i=1,2,\cdots,N)$ 与对应的因变量 $y^{(i)}(1=1,2,\cdots,N)$ 都有相同关系。

因此，矩阵表达方式如下：
$\mathcal X^{T}(\mathcal Y - \mathcal X\beta) = 0$
将上式展开移项：
$\mathcal X^{T} \mathcal Y = \mathcal X^{T}\mathcal X\beta \\ \beta = (\mathcal X^{T} \mathcal X)^{-1}\mathcal X^{T} \mathcal Y$