机器学习常识 10: 线性回归

闵帆

已于 2023-09-20 07:26:29 修改

阅读量921

点赞数

分类专栏：机器学习常识文章标签：机器学习线性回归人工智能

于 2023-05-30 10:03:01 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/130941119

版权

机器学习常识专栏收录该内容

25 篇文章 38 订阅

订阅专栏

摘要: 线性回归是直接从问题到解决方案, 而岭回归之类则让我们理解正则项.

1. 一元线性回归

在二维平面有一系列数据点, $x$ 坐标表示其数据, $y$ 坐标表示其标签. 对于新的数据, 如何预测其标签? 为此, 我们可以建立一个线性函数 $y = a x + b$ .

输入: 数据点集合 ${(x_i, y_i)\}_{i = 1}^n$ .
输出: 线性函数的系数 $a, b$ .
优化目标: $\min \sum_{i = 1}^n (y_i - y_i')^2$ , 其中 $y_i' = a x_i + b$ .

这个问题在高中学过, 称为最小二乘法. 从优化目标可以看出, 优化的是 $l_2$ 模.

图 1. 一元线性回归

图 1 给出了广告费与销售额之间的关系. 虚线所示的 $f (x)$ 试图对所给的数据点进行拟合. 由此可以预测广告费为 2 万元、14万元等所对应的销售额. 直观地看, $a$ 是斜率, $b$ 是偏移量.

2. 多元线性回归

多元的情况, 只需要将 $x$ 和 $a$ 从标量改为向量即可. $y$ 与 $b$ 仍然为标量. 这时, 拟合直线换成了超平面.

输入: 数据点集合 $\{(\mathbf{x}_i, y_i)\}_{i = 1}^n$ , 其中 $\mathbf{x}_i \in \mathbb{R}^m$ .
输出: 线性函数的系数 $\mathbf{a}, b$ .
优化目标: $\min \sum_{i = 1}^n (y_i - f(\mathbf{x}_i))^2$ , 其中 $f(\mathbf{x}_i) = \mathbf{a} \mathbf{x}_i + b$ .

为了解该问题, 可以将数据集合用矩阵表示, 标签集合则用向量表示, 即:
$\mathbf{Y} = \mathbf{X\theta} + b. \tag{1}$
在 $\mathbf{X}$ 最左边加上一列全 1, 可以把 $b$ 吸收进 $\mathbf{a}$ 里面去, 获得
$\mathbf{Y} = \mathbf{X\theta}, \tag{2}$
其中 $\mathbf{\theta} = (\theta_0, \theta_1, \dots, \theta_m)$
例如:
$\mathbf{X} = \left[\begin{array}{lll} 1 & 0.2 & 0.4 & 0.3\\ 1 & 0.3 & 0.5 & 0.4\\ 1 & 0.3 & 0.7 & 0.5\\ 1 & 0.4 & 0.6 & 0.6\\ 1 & 0.2 & 0.8 & 0.6\\ \end{array}\right], \mathbf{Y} = \left[\begin{array}{l} 0.2\\ 0.3\\ 0.7\\ 0.4\\ 0.5\\ \end{array}\right]$

由于实例个数 (这里 $n = 5$ ) 多于特征个数 (这里 $m = 3$ ), (2) 式是一个超定方程组
$\left\{\begin{array}{l} 1\theta_0 + 0.2\theta_1 + 0.4\theta_2 + 0.3\theta_3 = 0.2\\ 1\theta_0 + 0.3\theta_1 + 0.5\theta_2 + 0.4\theta_3 = 0.3\\ 1\theta_0 + 0.3\theta_1 + 0.7\theta_2 + 0.5\theta_3 = 0.7\\ 1\theta_0 + 0.4\theta_1 + 0.6\theta_2 + 0.6\theta_3 = 0.4\\ 1\theta_0 + 0.2\theta_1 + 0.8\theta_2 + 0.6\theta_3 = 0.5\\ \end{array}\right. \tag{3}$
即一般情况下不存在这样的 $\mathbf{\theta}$ 使得该方程组成立. 为了理解这个事情, 可以回到一元线性回归, 当数据点 3 个或以上, 就不存在一条直线刚好穿过所有的点.
根据优化目标, 可以解得 (参见知乎上的推导或 CSDN 上其他作者的贴子):
$\mathbf{\theta} = (\mathbf{X}^{\mathsf{T}}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Y} \tag{4}.$

如果这里求矩阵的逆出了问题 (有些矩阵没有逆), 就可以用梯度下降法来求解.

3. 岭回归

(3) 式在求逆矩阵的时候可能出问题, 为了解决它, 引入

新的优化目标: $\min \sum_{i = 1}^n (y_i - f(\mathbf{x}_i))^2 + \lambda \sum_{j = 1}^m \theta_j^2$ .
由此推导出
$\mathbf{\theta} = (\mathbf{X}^{\mathsf{T}}\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Y} \tag{5}.$
$\lambda \mathbf{I}$ 的加入使得矩阵一定可逆.
除了解决矩阵求逆的问题, 新的优化目标还有个非常重要的作用: 对 $\theta_j$ 的值进行惩罚. 也就是说, $\theta_j$ 的绝对值越大, 这个方案越不好.
$\lambda \sum_{j = 1}^m \theta_j^2$ 就是传说中的正则项, 它牺牲了模型在训练集中的拟合能力, 但提升了在新数据上的预测能力 (即泛化能力). 而模型的泛化能力是机器学习的核心.
这里的系数 $\lambda$ 设置得越大, 对训练数据的拟合就越差. 但设置得太小, 就不能达到控制过拟合的目的.
很多机器学习的论文, 都致力于提升模型的泛化能力. 俗气一点, 就是使用不同的正则项, 然后再给出合理的解释, 并用良好的实验结果来证实. 系数 $\lambda$ 的设置, 也通常是人为的.

4. 欠拟合

图 1 所示的糖葫芦串得不错, 但在现实世界中, 用一根直接把数据串起来很困难. 这很容易导致欠拟合, 也就是说, 很多点都拟合得不好.

4.1 局部线性回归

数据往往体现一定的局部性, 即与自己相邻的数据, 影响更大 (回头想想 $k$ NN). 所以我们可以更重视局部点的影响, 由此引入局部线性回归, 如图 2 所示. 更多内容参见其它CSDN 贴子.

图 2. 局部线性回归

4.2 离群点

如图 3 所示, 少量离群点导致拟合函数产生了较大的偏移 (下面这根线). 这些离群点可能是数据采集过程中错误导致. 一种解决方式如下: 生成拟合函数后, 可以把偏差最大的一部分 (如 1%) 训练数据去掉, 再进行拟合 (上面这根线). 这种简单的方式可以削弱离群点的影响.

图 3. 离群点的影响

5. 线性回归在机器学习常识中的意义

是机器学习问题定义的一个典型案例.
线性模型及其变种在很多地方被采用. 也不是因为线性模型的拟合能力强 (其实它是最弱的), 而是因为它简单, 易于计算.
给出了一个典型的优化目标.
能从优化目标直接获得最优解, 如 (3) 式所示. 对于绝大多数机器学习问题, 这点无法做到.
给出了一个典型的正则项.

6. 常见误区

可视化的时候, 标签本身需要占一个维度. 仅 1 个特征的时候,就需要在二维平面上表示. 例中有 3 个特征, 应该使用 4 维空间中的超平面表示. 这与后面的分类问题很容易弄混.
$\mathbf{X}$ 最左边一列为 1, 实际是为了把偏移量放到 $\mathbf{\theta}$ , 方便表达. 并不是数据多了一个特征.
超定方程组不存在解. 误差是难免的. (4) 式理论上使得误差最小.
系数 $\lambda$ 的大小表示对过拟合的控制强度.
从一元线性回归来看, 误差不是点到拟合直线的距离, 而是 $y_i$ 与 $f(x_i)$ 的差值.