【机器学习入门】3.最简单的模型：线性模型

JiaZhen Qu

已于 2024-09-10 15:26:43 修改

阅读量823

点赞数 9

分类专栏：机器学习/深度学习基础文章标签：机器学习人工智能

于 2024-09-10 14:22:42 首次发布

本文链接：https://blog.csdn.net/m0_48986778/article/details/142097962

版权

机器学习/深度学习基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

《机器学习》，周志华，第三章

文章目录

1. 基本形式
2. 线性回归(linear regression)
- 一元线性回归
- 多元线性回归
- 广义的线性模型
- 对数几率回归（逻辑回归，logit regression）
3. LDA（线性判别分析）
4. 多分类学习
- OvO（一对一，One vs. One）
- OvR（一对其余，One vs. Rest）
- MvM（多对多，Many vs. Many）
5. 类别不平衡问题
- 欠采样（under sampling）
- 过采样（over sampling）
- 阈值移动（threshold moving）

1. 基本形式

线性：两个变量之间的关系是一次函数关系，图像是直线。
非线性：两个变量之间的关系不是一次函数关系，图像不是直线。

注意：线性是指广义的线性，也就是数据与数据之间的关系。

在一个理想的连续世界中，任何非线性的东西都可以被线性的东西来拟合，所以理论上线性模型可以模拟物理世界中的绝大多数现象。而且因为线性模型本质上是均值预测，而大部分事物的变化都只是围绕着均值而波动，即大数定理。

具体解释：
给定一个数据集，每条数据包含 d 个属性，即每个样本可表示为 $(x_1,x_2,\cdots ,x_i,\cdots ,x_d)$ ，其中 $x_i$ 表示这个样本在第 i 个属性上的取值。

**线性模型（linear model）**试图学得一个通过属性的线性组合来进行预测的函数：
$(w_1x_1 + w_2x_2+\cdots +w_ix_i+\cdots +w_dx_d)+b$

一般用向量的形式表示：
$f(x)=w^Tx+b$
$w^T=\begin{pmatrix} w_1\\ w_2\\ ... \\ w_d \end{pmatrix}$

模型在学习过程中主要是学习参数 $w$ 和 $b$ ，从而确定模型。

2. 线性回归(linear regression)

数据集 $\left \{(x_1, y_1), (x_2, y_2), \cdots , (x_m, y_m) \right \}$ ，其中 $x_i = (x_{i1}, x_{i2}, \cdots, x_{id})$ ，$ y_i\in R$

一元线性回归

线性回归试图学得一个线性模型，尽可能准确地预测出标签：
$f(x)=wx_i+b \quad \text{ s.t. } \quad f(x_i) \approx y_i$

这里用”尽可能地准确“这个词，因为我们几乎不可能得到一个完美拟合所有样本数据的线性方程，即直接基于输入数据构建的多元线性方程组在大多数时候是无解的。

例如下图，我们无法找到一条完美的直线，刚好穿过所有的数据点：

这个时候我们会寻找一个解向量，它和目标数据点的距离尽可能地小。所以现代线性回归算法所做的事情是：在一定的线性约束条件下，求解线性目标函数的极值问题，这是一个线性规划问题。

我们如何求解 $w$ 和 $b$ ？关键在于如何衡量 $f (x)$ 和 $y$ 之间的差别。在回归问题中，我们通常使用均方误差（mean square error，MSE），我们尝试使均方误差最小化：
$\frac{1}{m} \sum_{i=1}^{m}(f(x_i)-y_i)^2$

$(w^*, b^*) = (w, b) \quad \text{ s.t. } \quad MSE_{min}$

$(w^*, b^*) = \arg \min_{(w,b)} \sum_{i=1}^{m}(f(x_i)-y_i)^2 = \arg \min_{(w,b)} \sum_{i=1}^{m}(y_i - wx_i-b)^2$

$w^*, b^*)$ 表示 w 和 b 的解。

均方误差在几何上对应了常用的欧氏距离（Euclidean distance）。

最小二乘法（least square method）：基于均方误差最小化来进行的模型求解的方法。

在线性回归中，最小二乘法就是试图寻找一条直线，试图使所有样本到直线的欧氏距离之和最小。

求解 w 和 b 使 $E_{w,b}=\sum_{i=1}^{m}(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘参数估计（parameter estimation）。让这个式子分别对 w 和 b 求偏导，得到：
$\frac {\partial E_{w, b}}{\partial w} = 2\left ( w\sum_{i=1}^{m} x_{i}^2 - \sum_{i=1}^{m}(y_i-b)x_i \right )$

$\frac {\partial E_{w, b}}{\partial b} = 2\left ( mb - \sum_{i=1}^{m}(y_i-wx_i) \right )$

当上面这两个式子都等于 0 时就可以得到 w 和 b 的最优解的闭式解（closed form solution）

$\frac {\sum_{i=1}^{m} y_i (x_i - \bar{x} )}{\sum_{i=1}^{m} x_i^2 - \frac{1}{m}(\sum_{i=1}^{m} x_i)^2}\quad \text{，x 的均值：} \bar{x} = \frac{1}{m} \sum\nolimits_{i=1}^{m} x_i$

$\frac{1}{m} \sum_{i=1}^{m}(y_i - wx_i)$

多元线性回归

更一般，对于样本包含多个属性（d 个），我们试图学得：
$f(x)=w^Tx_i+b \quad \text{ s.t. } \quad f(x_i) \approx y_i$

类似的还可以使用最小二乘法对 w 和 b 进行估计，将其转换为向量形式 $\hat{w} = (w;b)$ 。

相对应，我们把数据集 D 表示为一个 $\times (d +1)$ 大小的矩阵 $X$ ，即每行对应一个实例，每行对应 d 个属性，最后一个元素恒定置为 1。
$\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1\\ x_{21} & x_{22} & \cdots & x_{2d} & 1\\ \vdots & \vdots & \ddots & x_{1d} & 1\\ x_{11} & x_{12} & \cdots & x_{1d} & 1 \end{pmatrix} = \begin{pmatrix} x_{1}^T & 1\\ x_{2}^T & 1\\ \vdots & \vdots\\ x_{m}^T & 1 \end{pmatrix}$

标签也写成向量的形式：
$\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix}$

类似于一元线性回归，有：
$\hat{w}^* = \arg \min_{\hat{w}} (y - X\hat{w})^T(y - X\hat{w})$

令 $E_{\hat{w}}=(y - X\hat{w})^T(y - X \hat{w})$ ，对 $\hat{w}$ 求导得：
$\frac {\partial E_{\hat{w}}}{\partial \hat{w}} = 2X^T(X \hat{w} - y)$

当上式为 0（导数为 0）时可得到 $\hat{w}$ 最优的闭式解。

若 $X^TX$ 为满秩矩阵或正定矩阵，直接令： $\frac {\partial E_{\hat{w}}}{\partial \hat{w}} = 0$ 可以得到：
$\hat{w}^* =(X^TX)^{-1}X^Ty$

令 $\hat{x}^* = (x_i; 1)$ ，则最终得到多元线性回归模型：
$f(\hat{x_i})=\hat{x_i}^T(X^TX)^{-1}X^Ty$

但是实际的任务中通常 $X^TX$ 不是满秩矩阵，则会有无穷多解，此时可以解出多个 $\hat{w}$ ，它们都能使得均方误差最小化。选择哪一个作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化项。

广义的线性模型

我们可以把线性模型简写为：
$y = w^Tx + b$

假设我们认为示例所对应的输出标签是在指数尺度上的变化，那就可以将输出标记的对数作为线性模型逼近的目标，即：
$ln{y} = w^Tx+b$

这就是对数线性回归，它实际上是通过 $e^{w^Tx+b}$ 去逼近 $y$ 。

上面这个式子在形式上实际还是线性回归，实质上是求取输入空间到输出空间的非线性函数映射，这里的对数函数起到了将线性回归模型的预测值与真实值标记联系起来的作用。

说通俗一点，就是 y 和 x 原本是一个非线性关系，但是我们发现 $\ln y$ 和 x 是一个线性关系，那么我们就可以去求这个 $\ln y$ 和 x 的线性关系。
线性回归

更广义的，考虑单调可微函数 $g(\cdot)$ ，令：
$g(\cdot) = w^Tx+b，\text{求反函数得到 }y = g^{-1}(w^Tx+b)$

这就是广义的线性模型。其中函数 $g(\cdot)$ 称为联系函数，对数线性回归的联系函数就是： $g(\cdot) = \ln{(\cdot)}$ 。

对数几率回归（逻辑回归，logit regression）

对数几率回归是一种用于解决二分类问题的统计学习方法。尽管名字中包含"回归"，但实际上它是一种分类算法，用于估计某个样本属于某个类别的概率。对数几率回归的基本原理是基于线性回归的形式，但通过使用对数几率函数将线性输出映射到概率空间。

模型形式：
$z = w^Tx+b$

对数几率函数：
$\frac{1}{1+e^{-z}}$

对数几率函数

模型表达式：将模型函数带入对数几率函数：
$\frac {1}{1+e^{-(w^Tx+b)}}$

$\ln{\frac {y}{1-y}}=w^Tx+b$

若将 $y$ 看做样本 $x$ 作为正例的可能性，那 $1 - y$ 就是反例的可能性，两者的比值 $\frac{y}{1-y}$ 称作几率（odds），反映了 $x$ 作为正例的相对可能性。对几率取对数就得到了对数几率。从上面的式子可以看出，我们就是在用线性回归模型的预测结果去逼近真实标签的对数几率。

3. LDA（线性判别分析）

LDA的思想：投影后类内方差最小，类间方差最大。

我们要将数据在低维度上进行投影，投影后希望同一类数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

假设我们有两类数据分别为红色和蓝色，如下图所示，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。
LDA

上图提供了两种投影方式，哪一种能更好的满足我们的标准呢？

可以看出，右图要比左图的投影效果好，因为右图的红色数据和蓝色数据都比较集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是 LDA 的主要思想了，当然在实际应用中，我们的数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

LDA 算法既可以用来降维，又可以用来分类，但目前主要还是用于降维。

4. 多分类学习

多分类的常见思路是拆解法：将多分类问题拆解为若干个二分类任务求解。

对于给定的数据集：$D = \left { (x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m) \right },y_i \in \left { C_1,C_2,\cdots ,C_N \right } $。

常见的拆分策略有三种。

OvO（一对一，One vs. One）

将这 N 个类别两两配对，从而产生 $C_{N}^{2} = \frac{N(N-1)}{2}$ 个二分类任务。把预测的最多的类别作为预测的结果。
OvO

首先把类别两两组合（6种组合）。组合完之后，其中一个类别作为正类，另一个作为负类（这个正负只是相对而言，目的是转化为二分类）。然后对每个二分类器进行训练。可以得到6个二分类器。然后把测试样本在6个二分类器上面进行预测。从结果上可以看到，类别1被预测的最多，故测试样本属于类别1。

OvR（一对其余，One vs. Rest）

OvR 每次将一个类别作为正类，其余类别作为负类来训练 N 个分类器。在测试的时候若仅有一个分类器预测为正类，则对应的类别标记为最终的分类结果。

如果有多个分类器预测为正类，则通常考虑各个分类器的预测置信度，选择置信度最大的类别标记作为分类结果。
OvR

当有 4 个类别的时候，每次把其中一个类别作为正类别，其余作为负类别，共有 4 种组合，对于这 4 中组合进行分类器的训练，我们可以得到 4 个分类器。对于测试样本，放进 4 个分类器进行预测，仅有一个分类器预测为正类，于是取这个分类器的结果作为预测结果，分类器 2 预测的结果是类别2，于是这个样本便属于类别 2。

OvO 和 OvR 的比较：
OvR 只需训练 N 个分类器，而 OvO 需训练 N(N - 1)/2 个分类器，因此，OvO 的存储开销和测试时间开销通常比 OvR 更大。但在训练时，OvR 的每个分类器均使用全部训练样例，而 OvO 的每个分类器仅用到两个类的样例，因此，在类别很多时，OvO 的训练时间开销通常比 OvR 更小。至于预测性能，则取决于具体的数据分布，在多数情形下两者差不多。

综上:

OvO 的优点是，在类别很多时，训练时间要比 OvR 少。缺点是，分类器个数多。
OvR 的优点是，分类器个数少，存储开销和测试时间比 OvO 少。缺点是，类别很多时，训练时间长。

MvM（多对多，Many vs. Many）

MvM 是每次将若干个类作为正类，若干个其他类作为反类。显然，OvO 和 OvR 是 MvM 的特例。MvM 的正、反类构造必须有特殊的设计，不能随意选取。这里我们介绍一种最常用的 MvM 技术纠错输出码 (Error Correcting Output Codes，ECOC)

ECOC 工作过程主要分为两步:

编码：对 N 个类别做 M 次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集。这样一共产生 M 个训练集，可训练出 M 个分类器。
解码：M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

类别划分通过编码矩阵指定。编码矩阵有多种形式，常见的主要有二元码和三元码。前者将每个类别分别指定为正类和反类，后者在正、反类之外，还可指定停用类。

图（a）中，分类器 f2 将 C1 类和 C3 类的样例作为正例，C2 类和 C4 类的样例作为反例；
图（b）中，分类器 f4 将 C1 类和 C4 类的样例作为正例，C3 类的样例作为反例。

在解码阶段，各分类器的预测结果联合起来形成了测试示例的编码，该编码与各类所对应的编码进行比较，将距离最小的编码所对应的类别作为预测结果。

例如在图 (a) 中，若基于欧式距离和海明距离，预测结果将是 C3。

也就是一个测试样本，经过分类器 $f 1, f 2, f 3, f 4, f 5$ 分别预测成了 $(- 1, - 1, + 1, - 1, + 1)$ ，与 C1 相比较，海明距离为 $0 + 1 + 1 + 1 + 0 = 3$ ，欧式距离为 $\sqrt{ 0+4+4+4+0}=2\sqrt{ 3}$ ，对 C2,C3,C4 都进行比较即可。
MvM

为什么称为"纠错输出码"？
这是因为在测试阶段，ECOC编码对分类器的错误有一定的容忍和修正能力。例如图 (a) 中对测试示例的正确预测编码是 (-1，+1，+1，-1，+1)，假设在预测时某个分类器出错了，例如 h 出错从而导致了错误编码 (-1，-1，+1，-1，+1)，但基于这个编码仍能产生正确的最终分类结果 C3。一般来说，对同一个学习任务，ECOC 编码越长，纠错能力越强。

EOCO编码长度越长，纠错能力越强，那长度越长越好吗？
NO！编码越长，意味着所需训练的分类器越多，计算、存储开销都会增大；另一方面，对有限类别数，可能的组合数目是有限的，码长超过一定范围后就失去了意义。

对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强。因此，在码长较小时可根据这个原则计算出理论最优编码。然而，码长稍大一些就难以有效地确定最优编码，事实上这是 NP 难问题。不过，通常我们并不需获得理论最优编码，因为非最优编码在实践中往往己能产生足够好的分类器。另一方面，并不是编码的理论性质越好，分类性能就越好，因为机器学习问题涉及很多因素，例如将多个类拆解为两个“类别子集”，不同拆解方式所形成的两个类别子集的区分难度往往不同，即其导致的二分类问题的难度不同。于是一个理论纠错牲质很好、但导致的二分类问题较难的编码，与另一个理论纠错性质差一些、但导致的二分类问题较简单的编码，最终产生的模型性能孰强孰弱很难说。

5. 类别不平衡问题

前面的分类方法都是基于一个假设：不同类别的训练样例的数目相当。

如果不同类别的训练样例数目差别不大，通常影响不大；但如果差别很大，则会对学习过程产生影响。例如有 998 个反例，但正例只有 2 个，那么学习方法只需返回一个永远将新样本预测为反例的学习器，就能达到 99.8% 的精度；然而这样的学习器往往没有价值，因为它不能预测出任何正例。

类别不平衡（class-imbalance）：指分类任务中不同类别的训练样例数目差别很大的情况。

几率 $\frac{y}{1-y}$ 反映了正例可能性与反例可能性之比值，阔值设置为 0.5 恰表明分类器认为真实正、反例可能性相同，即分类器决策规则为：
$若\frac{y}{1-y}>1，则预测为正例。$

然而当训练集中正例数目 $m^+$ 和反例数目 $m^-$ 不同时，观测几率是 $\frac{m^+}{m^-}$ 。由于通常假设训练集是真实样本总体的无偏采样，因此观测几率就代表了真实几率。于是只要分类器的预测几率高于观测几率就会认定为正例，即：
$\frac{y}{1-y}>\frac{m^+}{m^-}，则预测为正例$

但事实上这一假设往往不成立，也就是未必能有效地基于训练集观测几率来推断出真实几率，常见的解决策略如下：

欠采样（under sampling）

直接去除一些反倒使得正、反例数接近然后再进行学习。

优点：时间开销通常较小。
缺点：欠采样法若随机丢弃反例，可能丢失一些重要信息。

其代表性算法 EasyEnsemble 利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看却不会丢失重要信息。

过采样（over sampling）

增加一些正例使得正、反例数目接近，然后再进行学习。

缺点：过采样法增加了很多正例，其训练集大于初始训练集。过采样法不能简单地对初始正例样本进行重复来样，否则会招致严重的过拟合。过采样法的代表算法 SMOTE 可以通过对训练集的正例进行插值来产生额外的正例。

阈值移动（threshold moving）

直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将 $\frac{y'}{1-y'}=\frac{y}{1-y}×\frac{m^-}{m^+}$ 嵌入到其决策过程中。

只要分类器的预测几率高于观测几率 $\frac{y}{1-y}>\frac{m^+}{m^-}$ 则应判定为正例。将右侧移到左侧可转化为： $\frac{y'}{1-y'}=\frac{y}{1-y}×\frac{m^-}{m^+}>1$ ，利用该式对预测值进行调整，称为再缩放(rescaling)。