线性模型学习

最新推荐文章于 2024-09-27 19:00:00 发布

2301_76760662

最新推荐文章于 2024-09-27 19:00:00 发布

阅读量570

点赞数 26

文章标签：机器学习

本文链接：https://blog.csdn.net/2301_76760662/article/details/140534876

版权

1：线性模型基本形式

给定由d个属性描述的示例 $x=\left \{ x_{1};x_{2};...;x_{d} \right \}$ ，其中 $x_{i}$ 是 $x$ 在第i个属性上的取值，线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即

许多功能更为强大的非线性模型（nonlinear model）可在线性模型的基础上通过引入层级结构或高维映射而得。此外，由于w直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性（comprehensibility）。

2：线性回归

给定数据集 $D=\left \{ (x_{1},y_{1}), (x_{2},y_{2}),..., (x_{m},y_{m})\right \}$ 。”线性回归“（linear regression）试图学得一个线性模型尽可能准确地预测实值输出标记。

线性回归试图学得

均方误差是回归任务中最常用的性能度量，因此我们可试图让均方误差最小化，即

均方误差有非常好的几何意义，它对应了常用的欧几里得距离或简称”欧式距离“。基于均方误差最小化来进行模型求解的方法称为”最小二乘法“。在线性回归中，最小二乘法是试图找到一条直线，使所有样本到直线上的欧式距离之和最小。

求解w和b使 $E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ 最小化的过程，称为线性回归模型的最小二乘”参数估计“（parameter estimation）。我们可以将 $E_{(w,b)}$ 分别对w和b求导，得到

然后令偏导为0，求得w和b的最优闭式解

更一般的情形是如本节开头的数据集D，样本由d个属性描述。

这称为”多元线性回归“（multivariate linear regression）。

3：线性判别分析

给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

给定数据集 $D=\left \{ (x_{i},y_{i}) \right \}^{m}_{i=1},y_{i}\in\left \{ 0,1 \right \}$ ，令 $X_{i}$ 、 $\mu_{i}$ 、 $\Sigma _{i}$ 分别表示第 $i\in\left \{0,1 \right \}$ 类示例的集合、均值向量、协方差矩阵。若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为
$w^{T}\mu _{0}$ 和 $w^{T}\mu _{1}$ ；若将所有样本点都投影到直线上，则两类样本的协方差分别为 $w^{T}\Sigma _{0}w$ 和 $w^{T}\Sigma _{1}w$ 。

欲使同样样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即 $w^{T}\Sigma _{0}w+w^{T}\Sigma _{1}w$ 尽可能小；而欲使异类样例的投影点尽可能原理，可以让类中心之间的距离尽可能大，即 $\left | \left | w^{T}\mu _{0}-w^{T}\mu _{1} \right | \right |^{2}_{2}$ 尽可能大。同时考虑二者，则可得到欲最大化的目标

$J=\frac{\left | \left | w^{T}\mu _{0}-w^{T}\mu _{1} \right | \right |^{2}_{2}}{w^{T}\Sigma _{0}w+w^{T}\Sigma _{1}w}$

$=\frac{w^{T}(\mu _{0}-\mu _{1})(\mu _{0}-\mu _{1})^{T}w}{w^{T}(\Sigma_{0}+\Sigma_{1})w}$

定义“类内散度矩阵”（within-class scatter matrix）

$S_{w}=\Sigma_{0}+\Sigma_{1}$

这就是LDA欲最大化的目标，即 $S_{b}$ 与 $S_{w}$ 的”广义瑞利商”（generalized Rayleigh quotient）。

4：多分类学习

我们考虑N个类别 $C_{1},C_{2},...,C_{N}$ ，多分类学习的基本思想是“拆解法”，即将多分类任务拆分为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。

最经典的拆分策略有三种：“一对一”（One vs. One，简称OvO）、“一对其余”（One vs. Rest，简称OvR）和“多对多”（Many vs. Many，简称MvM）

给定数据集 $D=\left \{ (x_{1},y_{1}), (x_{2},y_{2}),..., (x_{m},y_{m})\right \},y_{i}\in \left \{ C_{1},C_{2},...,C_{N} \right \}$ 。OvO将这N个类别两两配对，从而产生 $\frac{N(N-1)}{2}$ 个二分类任务，例如OvO将区分类别 $C_{i}$ 和 $C_{j}$ 训练一个分类器，该分类器把D中的 $C_{i}$ 类样例作为正例， $C_{j}$ 类样例作为反例。在测试阶段，新样本将同时提交给所有分类器，于是我们将得到 $\frac{N(N-1)}{2}$ 个分类结果，最终结果可通过投票产生：即把被预测得最多的类别作为最终分类结果。

OvR则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。在测试时，若仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果。若有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信读最大的类别标记作为分类结果。

OvO的存储开销和测试时间开销通常比OvR更大。在类别很多时，OvO的训练时间开销通常比OvR更小。至于预测性能，则取决于具体的数据分布，在多数情形下两者差不多。

MvM是每次将若干个类作为正类，若干个类其他类作为反类。最常用的MvM技术：“纠错输出码”（Error Correcting Output Codes，简称ECOC）

ECOC是将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步：

编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可训练出M个分类器。
解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

ECOC编码对分类器的错误有一定的容忍和修正能力。一般来说，对同一个学习任务，ECOC编码越长，纠错能力越强。所需训练的分类器越多，计算、存储开销都会增大；另一方面，对有限类别数，可能的组合数目是有限的，码长超过一定范围就失去了意义。对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强。

5：类别不平衡问题

类别不平衡（class-imbalance）指分类任务中不同类别的训练样例数目差别很大的情况。我们假定正类样例较少，反类样例较多。

从线性分类器的角度讨论，在我们用 $y=w^{T}x+b$ 对新样本 $x$ 进行分类时，事实上是在用预测出的y值与一个阈值进行比较，例如通常在 $y> 0.5$ 时判别为正例，否则为反例。y实际上表达了正例的可能性，几率 $\frac{y}{1-y}$ 则反映了正例可能性与反例可能性之比，阈值设置为0.5恰表明分类器认为真实正、反例可能性相同，即分类器决策规则为

若 $\frac{y}{1-y}> 1$ ，则预测为正例

令 $m^{+}$ 表示正例数目， $m^{-}$ 表示反例数目，则观测几率是 $\frac{m^{+}}{m^{-}}$ ，由于我们通常假设训练集是真实样本总体的无偏采样，因此观测几率就代表了真实几率。于是，只要分类器的预测几率高于观测几率就应判定为正例，即

若 $\frac{y}{1-y}> \frac{m^{+}}{m^{-}}$ ,则预测为正例

只需令

$\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times \frac{m^{-}}{m^{+}}$

这就是类别不平衡学习的一个基本策略——“再缩放”（rescaling）.

再放缩思想虽简单，但实际操作并不平凡，主要是因为“训练集是真实样本总体的无偏采样”这个假设往往并不成立。三类做法：第一类是直接对训练集里的反类样例进行“欠采样”，即取出一些反例使得正、反例数目接近，然后再进行学习；第二类是对训练集里的正类样例进行“过采样”，即增加一些正例使得正、反例数目接近，然后在进行学习；第三类则是直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将 $\frac{y^{'}}{1-y^{'}}=\frac{y}{1-y}\times \frac{m^{-}}{m^{+}}$ 嵌入到其决策过程中，称为“阈值移动”。

欠采样法的时间开销通常远小于过采样法。过采样法的代表性算法SMOTE是通过对训练集里的正例进行差值来产生额外的正例。欠采样法的代表性算法EasyEnsemble则是利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看却不会丢失重要信息。