周志华《机器学习》学习笔记-线性模型

最新推荐文章于 2024-08-16 15:38:26 发布

yijia7590jfz

最新推荐文章于 2024-08-16 15:38:26 发布

阅读量349

点赞数

分类专栏：学习期算法训练文章标签：机器学习

本文链接：https://blog.csdn.net/hhhhh601/article/details/116562223

版权

学习期同时被 2 个专栏收录

23 篇文章 1 订阅

订阅专栏

算法训练

8 篇文章 0 订阅

订阅专栏

周志华《机器学习》学习笔记

文章目录

周志华《机器学习》学习笔记
- 第三章线性模型

第三章线性模型

3.1 基本形式

根据给定的数据集D，试图线性回归学习到一个线性模型以尽可能准确地预测实值，输出标记。

在数据集上建立线性模型，建立代价函数，最终以优化代价函数为目标确定模型参数，并将其用于后续的预测。

函数形式：

向量形式：

3.2 线性回归

线性回归(linear regression)是一种回归分析技术，例如在给定数据集D 。 线性回归试图学习到一个线性模型以尽可能准确地预测实值输出标记 。

为参数w和b，需要引入一个可以衡量预测值与数据集真实值之间差距的函数，称为代价函数。若代价函数在整个数据集上的值越小，就代表预测值与真实值。所以优化目标就是使代价函数的值最小。

通常选用均方误差作为代价函数：

均方误差具有非常好的几何意义，它对应了常用的欧几里得距离（欧氏距离）。
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
线性回归中，最小二乘法的几何意义就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。

1 一元线性回归

对于x_i，如果输入的属性只有一个，而非数据集D，此时称为“一元线性回归”

令，将其分别对w和b求导，得到：

令导数为0，可以得到w和b的最优解的解析解：

2 多元线性回归

更一般的情况，如果给定数据集D，即样本由d个属性描述，则称为“多元线性回归”

对比：

一元线性回归，x是具体的单值

多元线性回归：x由d个属性描述，是向量

由数据集D，试图学得：

类似的，可利用最小二乘法来对w和b进行估计：

为便于讨论，我们把w和b吸收入向量形式û＝（w；b），相应的，把数据集D表示为一个m *(d＋1)大小的矩阵X，其中每行对应于一个示例，该行前d个元素对应于示例的d个属性值，最后一个元素恒置为1，即

类似于式(3.4)，可以写作

令，则对求导：

令上式为0 ，可以得到的最优解的解析解。

3 对数线性回归

原型：

对数：

此时，模型的预测值并不是直接逼近真实标记y，而是逼近真实标记的衍生物ln y；
式(3.14)在形式上仍是线性回归，但实质上已是在求取输入空间到输出空间的非线性函数映射；
对数函数的作用：将线性回归模型的预测值与真实标记联系起来。

4 广义线性模型

在更一般的情况下，有联系函数（link function）： g(.)

实际上，此时的y与x不是直接的线性关系
但将y做变化，变为g(y)，可以满足线性关系

广义线性模型的参数估计常通过加权最小二乘法和极大似然法进行。

加权最小二乘法：通过对近、远期数据赋予不同的权重，以消除异方差性；
极大似然法：利用已知样本结果，反推最大概率。

3.3 对数几率回归（逻辑回归）

广义线性模型的推广，在其基础上增加一个函数，将分类任务的真实标记y与线性回归模型的预测值联系起来

（回归问题 ——→ 分类问题）

对数几率回归，本质上是一个分类问题

二分类问题（0、1）

关系函数：
- 单位跃迁函数（unit-step function）
  - 单位阶跃函数可以将实值转换为0/1值，在信号、电力系统中使用较多
  - 但单位跃迁函数并不连续，因此不能直接用作式(3.15)中的g^-1
- 对数几率函数（logistic function / sigmoid函数）
  - 从图中可以看出，对数几率函数是一种“sigmoid函数”，单调可微，它将线性回归预测的z值转化为一个接近0或1的y值。
  将对数几率函数作为**g^-1**代入式(3.15)，得到：
  
  经过变换，得到：
  - 若将y视为样本作为正例的可能性，则1-y是其反例的可能性，二者的比值：
    
    称为“几率”（odds），表示样本为正例的相对可能性；
  - 几率的对数称为“对数几率”（log odds，亦称logit）

综上，式(3.18)的本质是用线性回归模型的预测结果去逼近真实标记y的对数几率，所以其对应的模型称为“对数几率回归”。

关于对数几率函数

对数几率函数将预测值输出为介于0和1之间的连续概率值，但可以看到，对数几率（log odds）向概率的转化是非线性的。

两端：斜率小，变化小，边界值小
中间：斜率大，变化大，很敏感

在两端时，其损失函数是最小的，此时的结果接近于理想；

在中间时，由于输出值很敏感，所以很容易造成欠拟合。图例

3.4 线性判别分析

思想朴素，但并不表示简单

线性判别分析（Linear Discriminant Analysis，LDA），又成为Fisher判别分析

线性判别分析是一种经典的降维方法，将数据在低维度上进行投影。

其思想很朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

线性判别分析是一种经典的降维方法，将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

举例：

假设有两类数据，分别为红色和蓝色，如下图所示，这些数据特征是二维的，希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

从直观上可以看出，**右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。**左图则在边界处数据混杂。

在实际应用中，数据往往是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

3.5 多分类学习

多分类学习的基本思路是“拆解法”，即将多分类任务拆分为若干个二分类任务求解。

具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器。在测试的时候，对这些分类器的预测结果进行集成。因此，如何对多分类任务进行拆分是关键。

拆分策略

假设有N个类别C₁，C₂,…，C_N，

OvO策略（One vs. One，一对一）

OvO将N个类别两两配对，从而产生N(N-1)/2个二分类任务，例如OvO将为区分类别C_i、C_j训练一个分类器，该分类器把D中的C_i类样例作为正例，C_j类样例作为反例。在测试阶段，新样本将同时提交给所有分类器，于是我们将得到N(N-1)/2个分类结果，最终结果可以通过投票产生。
OvR策略（One vs. Rest，一对其余）

OvR则是每次将一个类的样例作为正例，所有其他类的样例作为反例来训练N个分类器，在测试时若仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果.
MvM策略（Many vs. Many，多对多）

MvM则是每次将若干个类作为正类，若干个其它类作为反类。

MvM的正、反类构造必须有特殊的设计，不能随意选取。

3.6 类别不平衡问题

问题：样本分布不均匀

当正、反例的数目相同时（之前的逻辑回归）：
- y>0.5，则判别为正例
- y<0.5，则判别为反例
- 对于几率：
当正、反例的数目不同时：

假设训练集是样本总体的无偏采样

（在此假设下，若样本分布不均，仍可以进行有效预测）
- 当正例数量为m+，反例数量m-：
- 再缩放（rescaling）：
  
  再缩放的思想虽简单，但实际操作却并不平凡——主要因为 “训练集是真实样本总体的无偏采样” 这个假设往往并不成立，也就是说，我们未必能有效地基于训练集观测几率来推断出真实几率
若上述假设不成立
- 欠采样：删除部分数据使正、反例数目接近
  - 由于丢弃了部分数据，使得分类器训练集远小于初始训练集，所以时间开销大幅缩短
  - 但随机丢弃数据，可能会丢失一些重要信息
- 过采样：增加部分数据使正、反例数目接近
  - 会增大时间开销
  - 若简单地对初始样本进行重复采用，否则会带来严重的过拟合
- 阈值移动：直接用原始训练集进行学习，但在使用训练好的分类器进行预测时，将式(3.48)嵌入决策过程中