第三章线性模型

最新推荐文章于 2024-07-10 00:27:04 发布

BeZer0

最新推荐文章于 2024-07-10 00:27:04 发布

阅读量516

点赞数

分类专栏：人工智能文章标签：机器学习人工智能算法

未经允许禁止转载

本文链接：https://blog.csdn.net/qq_42375636/article/details/125788068

版权

人工智能专栏收录该内容

5 篇文章 1 订阅

订阅专栏

一、基本形式

给定由 $d$ 个属性描述的示例 $x=(x_1;x_2;\cdots;x_d)$ ，其中 $x_i$ 是 $x$ 在第 $i$ 个属性上的取值，线性模型（linear model） 就是学习一个通过属性的线性组合来进行预测的函数：

$f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b$

一般用向量形式写成：

$f(x)=w^Tx+b$

非线性模型（nonlinear model） 可在线性模型的基础上引入层级结构或高维映射得到。线性模型具备较好的解释性。

二、线性回归

给定数据集 $D=\left\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\right\}$ ，其中 $x_i=(x_{i1};x_{i2};\cdots;x_{id}),y_i\in \mathbb{R}$ 。线性回归（linear regression） 是学习一个线性模型以尽可能准确地预测实值输出标记。

线性回归试图学得：

$f(x_i)=wx_i+b，使得f(x_i)\simeq y_i$

要确定 $w$ 和 $b$ ，可以使均方误差最小：

$(w^*,b^*)=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2\\~~~~~~~~~~~~~~~~~~=\argmin_{w,b}\sum_{i=1}^m(y_i-wx_i-b)^2$

均方误差对应了欧氏距离（Euclidean distance），基于均方误差最小化来进行模型求解的方法称为最小二乘法（least square method）。在线性回归中，最小二乘法就是找一条直线，使得所有样本到支线上的欧式距离之和最小。

求解 $w$ 和 $b$ 使 $E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘参数估计（parameter estimation）。可将 $E_{(w,b)}$ 分别对 $w$ 和 $b$ 求导，得到：

$\frac{\partial E_{(w,b)}}{\partial w}=w\left(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i \right)$
$\frac{\partial E_{(w,b)}}{\partial b}=2\left(mb-\sum_{i=1}^m(y_i-wx_i)\right)$

然后令上两个式子为 0 可得到 $w$ 和 $b$ 最优解的闭式（closed-form） 解：

$w=\frac{\sum_{i=1}^my_i(x_i-\bar x)}{\sum_{i=1}^mx_i^2-\frac{1}{m}\left(\sum_{i=1}^mx_i\right)^2}$
$b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i)$

其中 $\bar x=\frac{1}{m}\sum_{i=1}^mx_i$ 为 $x$ 的均值。

若考虑样本的 $d$ 个属性，此时需要学习：

$f(x_i)=w^Tx_i+b，使得f(x_i)\simeq y_i$

这称为多元线性回归（multivariate linear regression）。

同样可以利用最小二乘法来进行估计，令 $\hat w=(w;b)$ ，数据集 $D$ 表示为一个 $m\times(d+1)$ 大小的矩阵 $X$ ，其中每行对应一个示例，该行前 $d$ 个元素对应于示例的 $d$ 个属性，最后一个元素恒置为 1 ：

$X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{bmatrix}=\begin{bmatrix} x_1^T & 1 \\ x_2^T & 1 \\ \vdots & \vdots \\ x_m^T & 1 \end{bmatrix}$

把标记写成向量形式： $y=(y_1;y_2;\cdots;y_m)$ ，则有：

$\hat w^*=\argmin_{\hat w}(y-X\hat w)^T(y-X\hat w)$

令 $E_{\hat w}=(y-X\hat w)^T(y-X\hat w)$ ，对 $\hat w$ 求导得：

$\frac{\partial E_{\hat w}}{\partial \hat w}=y^Ty-\hat w^TX^Ty-y^TX\hat w+\hat w^TX^TX\hat w$

由矩阵微分公式： $\frac{\partial a^Tx}{\partial x}=\frac{\partial x^Ta}{\partial x}=a$ ， $\frac{\partial x^TAx}{\partial x}=(A+A^T)x$ 可得：

$~~~~~~~~~\frac{\partial E_{\hat w}}{\partial \hat w}=0-2X^Ty+(X^TX+(XX^T)^T)\hat w\\=\frac{\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y)$

令上式为 0 ，可得 $\hat w$ 最优解的闭式解，当 $X^TX$ 为满秩矩阵（full-rank matrix） 或正定矩阵（positive definite matrix） 时，可得：

$\hat w^*=(X^TX)^{-1}X^Ty$

令 $\hat x_i=(x_i,1)$ ，则最终学得的多元线性回归模型为：

$f(\hat x_i)=\hat x_i^T(X^TX)^{-1}X^Ty$

当 $X^TX$ 不满秩时，可解出多个 $\hat w$ ，它们都能使均方误差最小化，选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见做法是引入正则化（regularization） 项。

对于简单的线性模型，可以将模型预测值逼近 $y$ 的衍生物，例如可将输出标记的对数作为线性模型逼近的目标：

$ln y=w^Tx+b$

这就是对数线性回归（log-linear regression），虽然该式形式上仍是线性回归，但实质上已是在求取输入控件到输出空间的非线性函数映射，如图，该函数可将线性回归模型的预测值与真实标签联系起来。

还可考虑单调可微函数 $g(\cdot)$ ：

$y=g^{-1}(w^Tx+b)$

这样得到的模型成为广义线性模型（generalized linear model），其中函数 $g(\cdot)$ 称为联系函数（link function）。

三、对数几率回归

考虑二分类任务，其输出标记 $y\in\{0,1\}$ ，需要将线性回归模型产生的预测值（实值）转换为离散值，最理想的是阶跃函数（unit-step function）：

$y=\left\{\begin{matrix} 0 & z<0 \\ 0.5 & z=0 \\ 1 & z>0 \end{matrix}\right.$

从图中可以看出，单位阶跃函数不连续，因此不能直接使用，于是可以找到一些替代函数（surrogate function），这些函数单调可微，如对数几率函数（logistic function）：

$y=\frac{1}{1+e^{-z}}$

将对数几率函数作为 $g^-(\cdot)$ ，得：

$y=\frac{1}{1+e^{-(w^Tx+b)}}\tag{3.18}$

恒等变形：

$\ln\frac{y}{1-y}=w^Tx+b\tag{3.19}$

若将 $y$ 视为样本 $x$ 作为正例的可能性，则 $1 - y$ 是其反例可能性，两者比值：

$\frac{y}{1-y}$

称为几率（odds），反映了 $x$ 作为正例的相对可能性，对几率取对数则得到对数几率（log odds, 亦称 logit）：

$\ln\frac{y}{1-y}$

由此可看出，式（3.18）实际上是在用线性回归模型的预测结果去逼近真是标记的对数几率，因此对应的模型称为对数几率回归（logistic regression，亦称 logit regression）。

下面来确定式（3.18）中的 $w$ 和 $b$ ，若将式（3.18）中的 $y$ 视为类后验概率估计 $p (y = 1 ∣ x)$ ，则式（3.19）可重写为：

$\ln\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b$

显然有：

$p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}\tag{3.23}$

$p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}\tag{3.24}$

于是，可以通过极大似然法（maximum likelihood method） 来估计 $w$ 和 $b$ 。给定数据集 $\left\{(x_i,y_i)\right\}_{i=1}^m$ ，对率回归模型最大化对然似然（log-likelihood）：

$\ell(w,b)=\sum_{i=1}^m\ln p(y_i|x_i;w,b)\tag{3.25}$

即令每个样本属于其真实标记的概率越大越好。为便于讨论，令 $\beta=(w;b),\hat x=(x;1)$ ，则 $w^Tx+b$ 可简写为 $\beta^T\hat x$ 。再令 $p_1(\hat x;\beta)=p(y=1|\hat x;\beta),p_0(\hat x;\beta)=p(y=0|\hat x;\beta)=1-p_1(\hat x;\beta)$ ，则上式中的似然项可重写为：

$p(y_i|x_i;w,b)=y_ip_1(\hat x_i;\beta)+(1-y_i)p_0(x_i;\beta)\tag{3.26}$

将式（3.26）带入（3.25），并根据式（3.23）和（3.24）可知，最大化式（3.25）等价于最小化：

$\ell(\beta)=\sum_{i=1}^m\left(-y_i\beta^T\hat x_i+\ln\left(1+e^{\beta^T\hat x_i}\right)\right)\tag{3.27}$

式（3.27）是关于 $\beta$ 的高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法（gradient descent method）、牛顿法（Newton method） 等都可求得其最优解，于是就得到：

$\beta^*=\argmin_\beta\ell(\beta)$

以牛顿法为例，其第 $t + 1$ 轮迭代解的更新公式为：

$\beta^{t+1}=\beta^t-\left(\frac{\partial^2\ell(\beta)}{\partial\beta\partial\beta^T}\right)^{-1}\frac{\partial\ell(\beta)}{\partial\beta}$

其中关于 $\beta$ 的一阶、二阶导数分别为：

$\frac{\partial\ell(\beta)}{\partial\beta}=-\sum_{i=1}^m\hat x_i(y_i-p_1(\hat x_i;\beta))$

$\frac{\partial^2\ell(\beta)}{\partial\beta\partial\beta^T}=\sum_{i=1}^m\hat x_i\hat x_i^Tp_1(\hat x_il\beta)(1-p_1(\hat x_i;\beta))$

四、线性判别分析

LDA 也是一种对数据进行降维的方法，与 PCA 不同的是，LDA 是一种有监督的数据降维方法。

PCA 存在局限性，例如两组本来可分的数据，降维后在新的空间中不可分。

LDA 降维的目标：将带有标签的数据降维，须满足三个条件：

尽可能多的保留样本信息；
寻找使样本尽可能好分的投影方向；
投影后使同类样本尽可能接近，不同类样本尽可能远离；

1. 优化目标

线性，指将数据点投影到直线上，直线表达式为：

$y=w^Tx$

$x$ 表示样本向量，如果投影到一条直线上 $w$ 就是一个特征向量或者多个特征向量构成的矩阵。 $y$ 为投影后的样本点。

首先考虑两类样本的情况，将数据投影到直线 $w$ 上，则两类样本的中心在直线上的投影分别为 $w^T\mu_0$ 和 $w^T\mu_1$ ，其中 $\mu_i$ 表示第 $i$ 类样本的均值，若将所有的样本点都投影到直线上，则两类样本的协方差分别为 $w^T\sum_0w$ 和 $w^T\sum_1w$ ，投影后同类样本协方差矩阵的计算步骤如下：
$\sum_{x\in D_i}(w^Tx-w^T\mu_i)^2\\=\sum_{x\in D_i}(w^T(x-\mu_i))^2~~~~~~~\\~~~~~~~~=\sum_{x\in D_i}w^T(x-\mu_i)(x-\mu_i)^Tw\\~~~~~~~~~~=w^T\sum_{x\in D_i}[(x-\mu_i)(x-\mu_i)^T]w$

其中用到了公式： $(a\cdot b)^2=(a^Tb)^2=(a^Tb)(a^Tb)^T=a^Tbb^Ta$ 。

上式中间部分 $\sum_{x\in D_i}(x-\mu_i)(x-\mu_i)^T$ 是同类样本投影前的协方差矩阵。故可以发现若投影前的协方差矩阵为 $\sum$ ，则投影后的协方差矩阵为 $w^T\sum w$ 。

要使得同类样例的投影点尽可能接近，可以让同类样本点的协方差矩阵尽可能小，即 $w^T\sum_0w+w^T\sum_1w$ 尽可能小；要使得异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即 $||w^T\mu_0-w^T\mu_1||_2^2$ 尽可能大。于是得到最大化的优化目标：

$J=\frac{||w^T\mu_0-w^T\mu_1||_2^2}{w^T(\sum_0+\sum_1)w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\sum_0+\sum_1)w}$

其中 $||\cdot||$ 表示欧几里得范数， $||x-\mu_i||^2=(x-\mu_i)^T(x-\mu_i)$ 。

2. 协方差与样本分布的关系

要使得同类样例的投影点尽可能接近，可以让同类样本点的协方差矩阵尽可能小，即 $w^T\sum_0w+w^T\sum_1w$ 尽可能小；要使得异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即 $||w^T\mu_0-w^T\mu_1||_2^2$ 尽可能大。

为什么协方差矩阵可以反映出样本或样例点之间的距离关系？首先来看协方差和方差的公式：

$cov=\frac{1}{n}\sum(X-\bar X)(Y-\bar Y)$

$cov=\frac{1}{n}\sum(X-\bar X)(X-\bar X)$

可以发现两者非常相似。已知方差可以用来度量数据的离散程度， $(X-\bar X)$ 越大，表示数据距离离样本中心越远，数据就越离散，方差也就越大。同样的，对于协方差来说， $(X-\bar X)$ 和 $(Y-\bar Y)$ 越大，表示数据距离样本中心越远，数据分布就越分散，协方差也就越大。因此上述观点成立。

3. 类间散度矩阵

类间散度矩阵就是协方差矩阵乘以样本数目，其作用基本与协方差矩阵一致。

对于两类样本来说：

$S_b=m\cdot C=m\cdot\frac{1}{m}\cdot(\mu_0-\mu_1)(\mu_0-\mu_1)^T=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$

其中 $C$ 表示协方差矩阵， $m$ 表示样本数目。

对于多类问题来说：

$S_b=\sum_{i=1}^C(\mu_i-\mu)(\mu_i-\mu)^T$

其中 $C$ 表示类别数目， $\mu$ 表示所有样本的均值向量 $\mu=\frac{1}{C}\sum_{i=1}^C\mu_i$ 。

如果只使用类间散度矩阵一个约束条件来对数据进行降维，即让类间的样本投影尽可能远离，参考 PCA 的降维过程：

$S_b\mu=\lambda\mu$

不同的是，为了保证类间的样本投影后尽可能远离，我们应该选择特征值最大的特征向量代表的方向做投影。这样才能保证不同类样本投影之后方差尽可能大，尽可能远离。

4. 类内散度矩阵

对于两类问题来说：

$S_w=\sum_0+\sum_1=\sum_{x\in D_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in D_1}(x-\mu_1)(x-\mu_1)^T$

对于多类问题来说：

$S_w=\sum_{i=1}^C\sum_{j=1}^{m_i}(x_i^j-\mu_i)(x_i^j-\mu_i)^T$

其中 $\sum_{j=1}^{M_i}(x_i^j-\mu_i)(x_i^j-\mu_i)^T$ 表示第 $i$ 类样本的协方差矩阵。所以 $S_w$ 表示 $C$ 类样本协方差矩阵之和。

如果只是用类内散度矩阵一个约束条件来对数据进行降维，即让类内的样本投影尽可能接近，参考 PCA 的将为过程：

$S_w\mu=\lambda\mu$

不同的是，为了保证类内的样本投影后尽可能接近，我们应该选择特征值最小的特征向量代表的方向做投影。这样才能保证同类样本投影之后方差尽可能小，尽可能接近。

5. 优化

定义了类内散度矩阵和类间散度矩阵后，可以将优化目标转换为：

$J=\frac{w^TS_bw}{w^TS_ww}$

即 $S_b$ 与 $S_w$ 的广义瑞利商。

接下来确定 $w$ ，注意上式的分子和分母都是关于 $w$ 的二次项，因此上式的解与 $w$ 的长度无关，只与其方向有关。令 $w^TS_ww=1$ ，则上式等价于：

$min -w^TS_bw\\st.w^TS_ww=1$

使用拉格朗日乘子法，上式等价于：

$c(w)=-w^TS_bw+\lambda(w^TS_ww-1)$

$\frac{dc}{dw}=-2S_bw+2\lambda S_ww=0$

$S_bw=\lambda S_ww$

$S_w^{-1}S_b^w=\lambda w$

可以看到上式转化为一个求特征值和特征向量的问题。 $w$ 是要求解的特征向量，这就验证了之前所说的式子 $y=w^Tx$ 中的 $w$ 就是特征向量构成的矩阵。

但是此时仍有一个问题，那就是 $S_w$ 通常是不可逆的，因此有以下方法解决：

令 $S_w=S_w+\gamma I$ ，其中 $\gamma$ 是一个特别小的数，从而使得 $S_w$ 可逆；
先使用 PCA 降维，使得降维后的数据上 $S_w$ 可逆，然后再使用 LDA 。

五、多分类学习

二分类的方法可以推广至多分类任务，简单来说就是对多分类任务拆分为多个二分类任务。最经典的拆分策略有一对一（One vs. One, OvO），一对其余（One vs. Rest，OvR; One vs. All, OvA）和多对多（Many vs. Many, MvM）。

OvO 方式对 $N$ 个元素的数据集会生成 $\frac{N(N-1)}{2}$ 个分类器，在测试阶段将新样本提交给所有的分类器即可得到最终分类的结果。

OvR 方式是每次将一个类别的样例作为正例，其余类别作为反例来训练 $N$ 个分类器，测试时若仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果；若有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。

从上述两种方法可以发现，前者空间开销更大，后者时间开销更大。这是因为前者训练的分类器个数更多，后者每次训练时用到的样本个数更多。

MvM 方法是每次将若干类作为正类，若干类作为反类，因此该方法的构造需要有特殊的设计。一种常用的方法为：纠错输出码（Error Correcting Output Codes, ECOC），该方法是将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性。ECOC 工作过程主要分为两步：

编码：对 N 个类别做 M 次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生 M 个训练集，可训练出 M 个分类器。
解码：M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

类别划分通过编码矩阵（coding matrix） 指定。编码矩阵有多种形式，常见的主要有二元码和三元码。前者将每个类别分别指定为正类和反类，后者在正、反类之外，还可指定停用类。在图（a）中，分类器 $f_2$ 将 $C_1$ 类和 $C_3$ 类的样例作为正例，将 $C_2$ 类和 $C_4$ 类的样例作为反例；在图（b）中，分类器 $f_4$ 将 $C_1$ 类和 $C_4$ 类的样例作为正例， $C_3$ 类作为反例。在解码阶段，各分类器的预测结果联合起来形成了测试示例的编码，该编码与各类所对应的编码进行比较，将距离最小的编码所对应的类别作为预测结果。例如图（a）中，若基于欧氏距离，预测结果将是 $C_3$ 。
在这里插入图片描述
之所以叫纠错输出码，是因为在测试阶段，ECOC 编码器对分类器的错误有一定的容忍与修正能力。例如图（a）所示，测试样例的正确预测编码为（-1,+1,+1,-1,+1），假设在预测时 $f_2$ 分类器出错导致编码为（-1,-1,+1,-1,+1），但是基于该分类仍能正确得出分类结果 $C_3$ 。一般来说，对同一个学习任务，ECOC 编码越长，纠错能力越强，但同时也意味着所需训练的分类器越多，各方开销会增大。另一方面，对有限类别数，可能的组合数目是有限的，这就限定了码长的范围。

六、类别不平衡问题

类别不平衡（class-imbalance） 就是指分类任务中不同类别的训练样例数目差别很大的情况。本节假设正类样例较少，反类样例较多。

从线性分类器的角度讨论，使用 $y=w^Tx+b$ 对新样本进行分类时，事实上是再用预测出的 $y$ 值与一个阈值（通常为 0.5）比较。 $y$ 实际上表达了正例的可能性，几率 $\frac{y}{1-y}$ 则反映了正例可能性与反例可能性之比值，阈值设置为 0.5 表明分类器认为而这可能性相同，即分类器决策规则为：

$若\frac{y}{1-y}>1，则预测为正例\tag{3.49}$

然而当二者树木不同时，令 $m^+,m^-$ 分别表示正例数目和反例数目，则观测几率是 $\frac{m^+}{m^-}$ ，由于通常假设训练集是真实样本总体的无偏采样（表示采样的数据很好的代表了真是样本的情况），因此观测几率代表了真实几率。于是，只要分类器的预测几率高于观测几率就应该判定为正例，即：

$若\frac{y}{1-y}>\frac{m^+}{m^-}，则预测为正例\tag{3.50}$

为将式 3.49 转换为式 3.50 ，则令：

$\frac{y'}{1-y'}=\frac{y}{1-y}\times\frac{m^-}{m^+}$

这就是类别不平衡学习的一个基本策略——再缩放（rescaling），再平衡（rebalance）。该方法也是代价敏感学习（cost-sensitive learning） 的基础。这个方法的重要前提是：训练集是真是样本总体的无偏采样，但是这个假设往往不成立。因此有另外三种方法：

直接对训练集里的反类样例进行欠采样（undersampling），即去除一些反例使得正、反例数目接近；
对训练集里的正类样例进行过采样（oversampling），即增加一些正例使得正、反例数目接近；
阈值移动（threshold-moving），直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将上式嵌入到决策过程中。

需要注意的是，过采样法不能简单地对初始样例样本进行重复采样，否则会导致过拟合。一种代表性的算法为SMOTE，通过对训练集里的正例进行插值来生成额外的正例。欠采样法若随机丢弃反例，则可能丢失部分重要信息。一种代表性的算法为EasyEnsemble，利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习起来看完成了欠采样，但在全局来看并未丢失信息。