西瓜书-第3章-线性模型笔记

最新推荐文章于 2022-08-28 16:35:45 发布

一燊芊芊

最新推荐文章于 2022-08-28 16:35:45 发布

阅读量718

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_38689232/article/details/113179325

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

第3章-线性模型

1-基本形式

1.1-线性模型

给定由d个属性描述的示例， $x=(x_{i1}; x_{i2}; ...;x_{id})$ ，其中 $x_i$ 是 $x$ 在第 $i$ 个属性上的取值。
线性模型试图学得一个通过属性的线性组合来进行预测的函数，即
函数形式： $f(x)=w_1x_1+w_2x_2+...+w_dx_d+b$
向量形式： $f(x)=w^Tx+b$

1.2-优势

1.2.1-可解释性

由于ω直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性。

1.2.2-非线性模型

许多功能更为强大的非线性模型，可在线性模型的基础上通过引入【层级结构】或【高维映射】而得。

2-线性回归

2.1-定义与数学形式

给定数据集 $D=\{(x_1, y_1), (x_2, y_2),...,(x_m, y_m)\}$ ，其中 $x_i=(x_{i1}; x_{i2}; ...;x_{id}), y_i \in R.$
线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。即
试图学得 $f(x_i)=wx_i+b$ , 使得 $f(x_i) \simeq y_i$

2.1.1- 若 $x_i$ 是离散属性：

1、 $x_i$ 是有序属性值：连续化 =》可通过连续化将其转化为连续值。
2、 $x_i$ 是无序属性值：one-hot化 =》假定有 $k$ 个属性值，则通常转化为 $k$ 维向量。
例如属性“瓜类”的取值：西瓜、南瓜、黄瓜，可转化为 $(0, 0, 1), (0, 1, 0), (1, 0, 0)$

2.2-回归任务最常用的性能度量：均方误差

如何确定2.1中的 $w$ 和 $b$ 呢？关键在于如何衡量 $f (x)$ 与 $y$ 的差别。
=》均方误差是回归任务中最常用的性能度量，因此我们可以试图让均方误差最小化。

2.3-求解均方误差最小化=>最小二乘法

定义：基于均方误差最小化来进行模型求解的方法。
原理：试图找到一条直线，使所有样本到直线上的欧式距离之和最小。
方法：求极值=>求导后的式子等于零。
=>ω和b最优解的闭式（closed-form）解
1、分别对ω和b求导
2、分别对求导后的式子等于零。

应用：求解 $w$ 和 $b$ 使 $E_{(w,b)}={\textstyle\sum_{i=1}^m}{(y_i-wx_i-b)}^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”。

2.4-多元线性回归

2.4.1 秩矩阵（full-rank matrix）或正则矩阵（positive definite matrix）

现实任务重的xTx往往不是满秩矩阵

2.4.2 归纳偏好决定多个解的选择

常见做法：引入正则化（regularization）项

2.5-对数线性回归

介绍：令模型预测值逼近u的衍生物，例如ln(y)

实例所对应的输出标记是在指数尺度上变化，将输出标记的对数作为线性模型逼近的目标。

在形式上仍是线性回归（但实质上已是在求取输入空间到输出空间的非线性函数映射）。
在这里插入图片描述

2.5.2 线性回归模型的预测值与真实标记联系起来的
在这里插入图片描述

2.6-广义线性模型

形式：
在这里插入图片描述

联系函数（link function） g(.)
对数线性回归是广义线性模型在g(.)=ln(.)的特例

3-对数几率回归

几率
正例的可能性与反例的可能性之比
对数几率
对几率取对数

3.1 分类任务怎么办？

3.1.1 二分类，使用单位阶跃函数（unit-step function）

3.1.2 替代函数（surrogate function）

在一定程度上近似单位阶跃函数单调可微

对数几率函数（logistic function），一种 Sigmoid函数

3.1.3 两个函数的联系

3.2 几率（odds）

假设

对数几率函数

带入假设

变换

几率是样本为正例跟样本为负例的比值

3.3 对数几率（log odds，亦称logit）

3.4 优点

直接对分类可能性进行建模，无需事先假设数据分布
可得到近似概率预测
对率函数是任意阶可导的凸函数，方便求最优解
3.5 极大似然法（maximum likelihood method）

3.5.1 凸优化理论

3.5.2 经典的数值优化算法，例如

梯度下降法（gradient descent method）
牛顿法（Newton method）

4-线性判别分析

简称LDA，一种经典的线性学习方法
思想
给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别
LDA可从贝叶斯决策理论的角度来阐释，并可证明，当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类
LDA推广到多分类任务（监督降维技术）

4.1 LDA的思想

给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能远离

4.2 二分类问题上称“Fisher判别分析”

类内散度矩阵（with-class scatter matrix） Sw
类间散度矩阵（between-class scatter matrix） Sb
LDA可从贝叶斯决策理论的角度来阐释
Sb与Sw的广义瑞利商（generalized Rayleigh quotient） LDA最大化的目标
LDA可达到最优分类，当

两类数据同先验
满足高斯分布
协方差相等
4.3 LDA可以推广到多分类任务

矩阵的迹（trac

5-多分类学习

基本思路
拆解法
将多分类任务拆为若干个二分类任务求解
先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果
关键是如何对多分类任务进行拆分，以及如何对多个分类器进行集成
拆分策略
一对一（OvO）
N(N-1)/2个分类器
一对其余（OvR）
N个分类器
多对多（MvM）
最常用的MvM技术
纠错输出码（ECOC）
将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性
步骤
编码：对N个类别做M次划分，每次划分将一部分类别划分为正类，一部分划分为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可训练出M个分类器
解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果
类别划分
通过编码矩阵指定
二元码
三元码

5.1 基本思路

拆解法：讲多分类任务拆为若干个二分类任务求解

5.2 最经典的拆分策略

一对一（One vs One，简称OvO）
一对其余（One vs Rest，简称OvR）
多对多（Many vs Many，简称MvM）
1）最常用技术：纠错输出码（Error Correcting Output，简称ECOC）编码矩阵（coding matrix）

二元码指定正类和反类

三元码还可以指定用类

2）OvO和OvR是MvM的特例

6-类别不平衡问题

类别不平衡
分类任务中不同类别的训练样例数目差别很大
再缩放
欠采样
直接对训练集里的反类样例进行“欠采样”，即去除一些反例使得正、反例数目接近，然后再进行一些学习
代表性算法
EasyEnsemble
利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看且不会丢失重要信息
过采样
对训练集里的正类样例进行“过采样”，即增加一些正例使得正、反例数目接近，然后再进行学习
不能简单地对初始正例样本进行重复采样，否则会招致严重的过拟合
代表性算法
SMOTE
通过对训练集里的正例进行插值来产生额外的正例
阈值移动
直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将（y’）/（1-y’）=（y/（1-y）*（（m-）/（m+）））嵌入到其决策过程中
定义：分类任务中不同类别的训练样例数目差别很大的情况

6.1 处理的基本方法

再平衡（rebalance）/ 再缩放（rescaling）

6.1.1 代价敏感学习（cost-sensitive learning）的基础

6.1.2 解决现实中没有“无偏采样”的做法

欠采样（undersampling）/下采样（downsampling）
过采样（oversampling）/上采样（upsampling）
阈值移动（threshold-moving）