线性模型机器学习第三章

不是庸人的俗人（摆烂版）

已于 2022-11-10 19:35:32 修改

阅读量436

点赞数

分类专栏：机器学习文章标签：人工智能 python

于 2022-11-01 18:01:06 首次发布

本文链接：https://blog.csdn.net/G_Shengn/article/details/127634442

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

线性模型

文章目录

线性模型
前言
一、基本形式
二、线性回归
三、对数几率回归
四、线性判别分析
- 1、概念
- 2、实现
五、多分类学习
六、类别不平衡问题
总结

前言

一、基本形式

以西瓜问题来说，根据其属性判定，判定一个西瓜的好坏。
f(一个西瓜）= w₁ · 西瓜属性1 + w₂ · 西瓜属性2 +……+ w_d · 西瓜属性d，
好瓜 or 坏瓜 = 0.2 · 色泽 + 0.5 · 根蒂 +…… + 0.1· 条纹
给定有d个属性描述的示例x=（x₁；x₂；…；x_d），其中x_i是x在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数。（对于一个有d个属性的样本，线性模型希望和线性函数一样，能得到一个形如 y=ax+b的式子，只不过此时x是一个多属性的，可看成一个向量）即

f（x）= w ₁x ₁ + w ₂x ₂ + … + w _dx _d + b

一般用向量形式写成

f(x) = w ^T x + b

二、线性回归

线性回归：试图学得一个线性模型以尽可能准确的预测实值输出标记。（希望学得一个线性函数预测样本x的真实值y）

给定数据集D={（x₁，y₁）,（x₂，y₂）,……,（x_m，y_m）}，其中x_i = （x_i1；x_i2；…；x_id），y_i ∈R。假设样本x仅有一个属性（方便讨论），线性回归试图学得

f(x_i) = wx_i +b，使得f(x_i)≈y_i

对于线性回归，有w和b两个参数需要确定，回归任务中常用的性能度量是均方误差，我们通过最小化均方误差来获得w和b。
均方误差对应了欧几里得距离（简称欧氏距离，公式详情请看欧氏距离）。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二和曾发就是试图找到一条直线，是所有样本到直线上的欧氏距离之和最小。
求解w和b使得均方误差 $E_（w，b）=\sum_{i=1}^{n}(y_i - wx_i - b）^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”。将 $E_(w,b)$ 分别对w和b求导，得到
$\frac{∂E_(w,b)}{∂w} = 2（ \sum_{i=1}^{m}(y_i -wx_i - b） ·（-x_i）) = 2（w\sum_{i=1}^{m}x_i^2 - \sum_{i=1}^{m}(y_i - b）x_i)$
$\frac{∂E_(w,b)}{∂b} = 2（ \sum_{i=1}^{m}(y_i -wx_i - b） ·（-1） ) = 2（mb - \sum_{i=1}^{m}(y_i - wx_i）)$

令上述偏导=0，得到以下公式，求出w和b。
在这里插入图片描述

上述讲解是样本仅有一个属性，对应的也只有一个w系数。但是常见为x为多元属性，有d个属性描述，此时对应有d个w，此时，我们试图学得

f(x _i) = w ^Tx _i +b，使得f(x _i)≈y _i 这称为多元线性回归。

类似的，使用最小二乘法，对w和b进行估计。为便于讨论，将w和b写为向量形式， $\widehat {w}$ =(w;b),相应的把数据集d表示为一个m x （d + 1）大小的矩阵X，其中每一行对应一个样本（示例），每行前d个元素对应于示例的d个属性值，最后一个元素恒为1，如下图所示：在这里插入图片描述
再把标记写为向量形式y=（y₁;y₂;…;y_m）
类似的，求解 $\widehat {w}$ ，根据均方误差公式，令 $E_{\widehat {w}} = (y - X{\widehat {w}})^T(y - X{\widehat {w}})$ ，对 $\widehat {w}$ 求偏导得到
$\frac{∂E_{\widehat {w}}}{∂\widehat {w}} = 2 X^T(X{\widehat {w}} - y)$

简单地，当 $X^TX$ 为满秩矩阵或正定矩阵时，令上述偏导为0，可得 $\widehat {w}$ 的极值 $\widehat {w}$ *，为
$\widehat {w}* = （X^TX）^{-1}X^Ty$
其中 $X^TX）^{-1}$ 是矩阵 $X^TX$ 的逆矩阵，令 $\widehat {x}_i = (x_i;1)$ ,则最终学得的多元线性回归模型为：
$f(\widehat {x}_i) = \widehat {x}_i^T（X^TX）^{-1}X^Ty$
上述公式看起来很麻烦，在这里还原为原公式，便于理解。
在这里插入图片描述

广义线性模型：
首先，将线性回归模型简写为，y = w^Tx +b形式，
令模型预测值逼近y的衍生函数，假设有单调可微函数g（·），即g（y）= w^Tx +b。（此时在形式上，仍是线性回归，但是实质上是求输入空间x到输出空间y的非线性映射。）
变换形式后，得 $y = g^{-1}(w^Tx + b)$
这样的模型就称为广义线性模型，其中函数g（·）称为“联系函数”。

对数线性回归:
是广义线性回归在g（·）= ln（·）时的特例。形式如下：
$lny = w^Tx + b$

三、对数几率回归

1、应用背景：

之前讨论的都是使用线性模型进行回归学习，但是要做分类任务，则需联系上节广义线性模型，找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。对二分类任务，其输出标记y∈{0,1}，只有两种取值，非此即彼，但是线性回归模型成圣的预测值（z=wTx +b）是一个实值。我们需要将实值转换为0 or 1 值。理想情况下是单位阶跃函数。如下图所示，红色为阶跃函数。
在这里插入图片描述
可从图中看出，单位阶跃函数不连续，不能直接用作广义线性模型的 $g^{-1}（·）$ 函数，我们希望找到能够在一定程度上近似单位阶跃函数的、单调可微的“替代函数”，对数几率函数就是这样的一个常用替代函数: $y=\frac1{1+e^{-z}}$
从图中可看出，对数函数是一种“Sigmoid函数”，它将z值转换为一个接近0或1的y值，并且其输出值在z=0附近变化很陡。

2、概念及推导

将对数几率函数作为 $g^{-1}（·）$ 带入广义线性模型，得到： $y=\frac1{1+e^{-（w^Tx + b）}}$
请添加图片描述
其中，若将y视为样本x为正例的可能性，则1-y是其为反例的可能性，两者的比值 $\frac y{1-y}$ 称为几率，反映了x作为正例的可能性。对几率取对数得到对数几率： $ln\frac y{1-y}$
从图中可以看出，实际是在用线性回归模型的预测结果 $w^Tx + b$ 去逼近真实标记的对数几率 $ln\frac y{1-y}$ ，因此对应的模型称为“对数几率回归”。

注意：
虽然对数几率回归名为回归，实际是一种分类学习方法。

对数几率函数的优点： 1. 直接对分类可能性建模，无需事先假设数据分布，避免假设分布不准确带来的问题
2. 不是仅预测出类别，而是可得到近似概率预测，对许多需利用概率辅助决策的任务很有用。
3. 对数几率函数是任意阶可导的凸函数，有很好的的数学性质，现有的许多数值最优化算法都可直接用于求解最优解。

3、求解参数w和b

由上节对数几率函数进行化简可得：
在这里插入图片描述
$\frac {e^{w^Tx + b}}{e^{w^Tx + b}+1}$ ,1-y = $\frac 1{e^{w^Tx + b}+1}$
将对数几率函数中的y视为类后验概率估计p（y = 1 | x），可将其重写为
$\frac {p(y = 1 | x）}{p(y = 0 | x）} = w^Tx + b$
对应的，
$\frac {e^{w^Tx + b}}{e^{w^Tx + b}+1}$
$\frac1{e^{w^Tx + b}+1}$
我们可以通过“极大似然法”来估计w和b。详情点击极大似然估计.给定数据集D={（x₁，y₁）,（x₂，y₂）,……,（x_m，y_m）}，对数几率回归模型最大化“对数似然”：
$\sum_{i=1}^mln p(y_i|x_i;w,b)$
即，令每个样本属于其真实标记的概率越大越好。
（后续求解涉及最优化理论，暂时省略，需要的可以催更这部分）

四、线性判别分析

1、概念

线性判别分析（简称LDA）是一种经典的线性学习方法，也称Fisher判别分析。
思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的未知来确定新样本的类别。
给定数据集 $D=\{（x_i，y_i）\}_{i=1}^m,y_i ∈$ {0,1},有以下概念：
$X_i$ :第i类示例的集合（i∈{0,1}）
$μ_i$ :第i类示例的均指向量
$\sum_i$ :第i类示例的协方差矩阵
若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为 $w^Tμ_0和w^Tμ_1$ ；若将所有样本都投影到直线上，则两类样本的协方差分别为 $w^T\sum_0w和w^T\sum_1w$ 。（由于直线是一维空间，因此 $w^Tμ_0、w^Tμ_1$ 、 $w^T\sum_0w、w^T\sum_1w$ 都是实数）
我们提到LDA思想是“使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离”，同类尽可能接近，可以让同类样例投影点的协方差尽可能小，即 $w^T\sum_0w+w^T\sum_1w$ 尽可能小；异类尽可能远离，可以让类中心之间的距离尽可能大，即 $w^Tμ_0 - w^Tμ_1||_2^2$ ，同时考虑上述两种情况，则可以得到最大化目标J:
$\frac{||w^Tμ_0 - w^Tμ_1||_2^2}{w^T\sum_0w+w^T\sum_1w}$
化简后得 = $\frac{w^T（μ_0 - μ_1）（μ_0 - μ_1）^Tw}{w^T(\sum_0+\sum_1)w}$
定义“类内散度矩阵”：
$S_w = \sum_0+\sum_1$
$\sum_{x∈X_0}(x - μ_0)(x - μ_0)T + \sum_{x∈X_1}(x - μ_0)(x - μ_0)T$
定义“类间散度矩阵”：
$S_b= (μ_0 - μ_1)(μ_0 - μ_1)T$
LDA最大化目标（此时也称S_b与S_w的“广义瑞利商”）可重写为：
$\frac{w^TS_bw}{w^TS_ww}$

2、实现

求解w：
重写后的最大化目标中的分子分母都是关于w的二次项，J的解与w的长度无关，只与w的方向有关。令 $w^TS_ww = 1$ ，最大化目标等价于
$min_w \ \ -w^TS_bw$
$s.t. \ \ \ \ \ \ \ \ w^TS_ww = 1$
由拉格朗日乘子法，上式等价于
$S_bw = λS_ww$
其中， λ是拉格朗日乘子，注意到 $S_bw$ 的方向恒为μ₀ - μ₁，令
$S_bw = λ(μ_0 - μ_1)$
代入上式可得， $S_ww=(μ_0 - μ_1),w=S_w^{-1}(μ_0 - μ_1)$
$S_w^{-1}$ 求解：通常通过对 $S_w$ 进行奇异值分解，即 $S_w=U∑V^T$ ,∑是一个实对角矩阵，其对角线上的元素是 $S_w$ 的奇异值，由 $S_w^{-1} = V∑^{-1}U^T$ 解得 $S_w^{-1}$

LDA可从贝叶斯决策理论的角度来阐释，并可证明，当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类。
可将LDA推广到多分类任务中，这里暂时省略，需要时，我会再更。

五、多分类学习

对多分类学习任务，基本思路为“拆解法”，将多分类任务拆解为若干个二分类任务求解。本节主要讲解拆分策略。
对给定数据集D={（x₁，y₁），（x₂，y₂），……，（x_m，y_m）},y_i∈{C₁，C₂，…，C_N}，有以下情况：

经典拆分策略	一对一	一对多	多对多
英文	One vs. One(简称OvO）	One vs. Rest(简称OvR）	Many vs. Many (简称MvM）
策略内容	OvO将N个类别两两配对，从而产生N（N-1）/ 2个分类任务，测试阶段，新样本将同时提交给所有分类器，得到N（N-1）/ 2个分类结果，预测的最多的类别作为最终分类结果	每次将一个类别作为正例，其他类作为一个反例的整体，对应的类别标记作为最终分类结果。若有多个分类器预测为正类，选择置信度最大的类别标记作为分类结果	每次将若干个类作为正类，若干个其他类作为反类（OvO和OvR是其特例）。MvM的正、反类构造必须有特殊的设计，不能随意选取。常用技术：“纠错输出码（简称ECOC）”。
比较	需训练N（N-1）/ 2个分类器储存开销和测试时间开销较大训练时间通常较小	需训练N个分类器储存开销和测试时间开销较小训练时间通常较大	下文将对编码进行详细讲解

ECOC将编码思想引入类别拆分，并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步：

编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可以训练出M个分类器。
解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

编码示意图（先欠着）
类别划分通过“编码矩阵”指定。编码矩阵有多种形式，常见有二元码和三元码。

六、类别不平衡问题

类别不平衡问题：就是指分类任务中不同类别的训练样例数目差别很大的情况。
类别不平衡学习的一个基本策略——“再缩放”：
公式： $\frac {y'}{1-y'} = \frac y{1-y} × \frac {m^-}{m^+}$
当类别平衡时，分类器决策规则为 $\frac y{1-y} >1$ 则预测为正例。
当类别不平衡时，令 $m^+$ 表示正例数目， $m^-$ 表示反例数目，观测几率是 $\frac {m^-}{m^+}$ ，我们通常假设训练集是无偏采样，观测几率=真实几率。只要分类器的预测几率高于观测几率就应判定为正例，即 $\frac y{1-y} > \frac {m^-}{m^+}$ 。
此时，采用再缩放策略，使得正反例数进行调整，判定 $\frac {y'}{1-y'}$ >1是否成立，此时 $\frac {y'}{1-y'}=\frac y{1-y} × \frac {m^-}{m^+}$
方法：（假设正例数远远小于反例数）
1.直接对训练集里的反类样例进行“欠采样”，即去除一些反例，使得正反例数目相接近。
2.对训练集里的正类样例进行“过采样”，即增加一些正例，使得正反例数目相接近。
3.直接基于原始训练集进行学习，但在用训练好的分类器进行与测试，将公式嵌入器决策过程中，称为“阈值移动”。