西瓜书学习笔记第3章线性模型

最新推荐文章于 2022-12-15 21:56:13 发布

二三TP

最新推荐文章于 2022-12-15 21:56:13 发布

阅读量235

点赞数

分类专栏：读书笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_37779325/article/details/113933841

版权

读书笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

第3章线性模型

3.2 线性回归（Linear Regression）

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
在x只有一个属性的情况下进行求解（推导过程）：
对于多个属性的情况，即多元线性回归，常常使用矩阵的形式来表示数据以及分析。在本问题中，将具有m个样本的数据集表示成矩阵X，将系数w与b合并成一个列向量。

则最优解w如下（当XTX为满秩矩阵或正定矩阵（即可逆）时，令其为0，解得：）

正则化（Regularization）：但现实中我们经常会遇到不是满秩矩阵的不理想情况，导致X列数多于行数，XTX不满秩，此时会解出多个w解，多个解会因为学习算法的归纳偏好造成不同输出，面对这种情况，常见的做法是引入正则化。
正则化：应该叫做规则化，本质上是在模型中加入某些规则，加入先验，缩小解空间，减小出现错误解得可能性。
正则化在机器学习中用于解决（改善）过拟合问题，减小测试（泛化）误差，降低模型复杂程度。（用尽量少的变量去拟合数据，在加入正则化后的||β`||要比 ||β||（beta是估计量向量），即向量长度变短，数学上叫做shrinkage）。
[正则化解释] https://www.zhihu.com/question/20924039
[正则化方法] L1 L2范数等（作为惩罚项）。
[超参数] 在开始学习设置的超参数，模型优化通常都需对超参数进行优化。

3.3 对数几率回归

替代单位跃阶函数：

对数几率函数是一种Sigmoid函数，将z值转化一个接近0或者1的y值，一般的大于0.5为正类。适合作为g函数。
“几率”：y/1-y中y为正例的可能性，1-y为反例可能性，两者比值称为几率，几率取对数为对数几率（Log Odds，称为logit）。

对数几率回归（Logistic Regression，logit Regression）：用线性回归模型的预测结果去逼近真实标记的对数几率，因此成为对数几率回归，又称逻辑回归。

直接对分类的概率建模，无需事先假设数据分布，避免假设不准确。
不仅预测出类别，还得到近似概率预测，对辅助决策有用。
对数几率函数是可导的凸函数，数学性质好，很多数值优化算法可用于求最优解。

[数值优化] 迭代算法，求有或无约束条件下的最优解，比如拉格朗日等。
后验概率估计

极大似然法（Maximum Likelihood Method）：极大似然是一种给定观察数据和模型求估计量的方法，用已知样本的结果，反推最有可能导致这样结果的参数值。在“反推最有可能导致这样结果的参数值”中我们用似然函数代表性能度量，从似然函数中反推的参数值就是最优解。
最优解如何求：
对数似然（Log-likelihood）先对概率连乘求对数（方便变成求和形式），再将其当作似然函数，再对估计量求导解得最优解。

可采用经典数值优化算法如梯度下降法（Gradient Descent Method），牛顿法（Newton Method）求最优解。
补充
参考链接https://zhuanlan.zhihu.com/p/180468508

3.4 线性判别分析

线性判别分析（Linear Discriminant Analysis，LDA）：经典线性学习方法，在二分类问题上最早由Fisher提出，亦成为Fisher判别分析。基本思想是：将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。
定义
性能度量：如何度量分类效果？
想让同类样本点的投影点尽可能接近，不同类样本点投影之间尽可能远，即：让各类的协方差之和尽可能小，不同类之间中心的距离尽可能大。

基于这样的考虑，LDA定义了两个散度矩阵。类内散度矩阵（Within-class Scatter Matrix），类间散度矩阵(Between-class Scatter Matrix)

因此得到了LDA最大化的目标（度量方法）：广义瑞利商（Generalized Rayleigh Quotient），广义瑞利商越大，越优：

然后进行求解（需要再看）

若将w看做一个投影矩阵，类似PCA的思想，则LDA可将样本投影到N-1维空间（N为类簇数），投影的过程使用了类别信息（标记信息），因此LDA也常被视为一种经典的监督降维技术。

LDA可用作分类和降维，但实际上用作降维比较多：
- 分类：假设各类样本符合高斯分布，用LDA投影后，用极大似然MLE算均值方差，得到该类概率密度分布函数。样本数据输入，投影，计算属于该类的概率，按概率最大的归类。
- 降维：首先输入数据集D计算类间散度矩阵和类内散度矩阵Sw和Sb，计算Sw^{-1Sb；再计算Sw}-1Sb的最大d个特征值对应的特征向量(w1,w2…wd)（即投影矩阵）；对样本集中每一个样本特征Xi转换成Zi=W^T*Xi，输出数据集D‘。（从这里可以看出从X到Z起到了降维作用）。

3.5 多分类学习

现实中我们经常遇到不只两个类别的分类问题，即多分类问题，在这种情形下，我们常常运用“拆分”的策略，通过多个二分类学习器来解决多分类问题，即将多分类问题拆解为多个二分类问题，训练出多个二分类学习器，最后将多个分类结果进行集成得出结论。最为经典的拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“多对多”（MvM）。

OvO：给定数据集D，假定其中有N个真实类别，将这N个类别进行两两配对（一个正类/一个反类），从而产生N（N-1）/2个二分类学习器，在测试阶段，将新样本放入所有的二分类学习器中测试，得出N（N-1）个结果，最终通过投票产生最终的分类结果。
OvM：给定数据集D，假定其中有N个真实类别，每次取出一个类作为正类，剩余的所有类别作为一个新的反类，从而产生N个二分类学习器，在测试阶段，得出N个结果，若仅有一个学习器预测为正类，则对应的类标作为最终分类结果。
MvM：给定数据集D，假定其中有N个真实类别，每次取若干个类作为正类，若干个类作为反类（通过ECOC码给出，编码），若进行了M次划分，则生成了M个二分类学习器，在测试阶段（解码），得出M个结果组成一个新的码，最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。
MvM的正、反类构造有特殊的设计，其中一种常用的MvM技术是纠错输出码（Error Correcting Output Codes，简称ECOC）
- 编码:对个类别做次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成二分类练集;这样一共产生个训练集，可训练出个分类器
- 解码:M 个分类器分别对测试样本进预测，这些预测标记组成一个编码：将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。（欧式距离，海明距离（两代码对应位上编码不同的位数）等）

3.6 类别不平衡问题

类别不平衡问题（Class-Imbalance）：指分类任务中不同类别的训练样例数目差别很大的情况。
解决类不平衡学习的策略：

再缩放（Rescaling）：基于原数据集新星学习，对预测值进行缩放。因为类平衡情况下，拿对数几率函数来说，我们一般在对新样本分类时拿预测出的y值与一个阈值比较（usually 0.5）大于为正例小于为反例（y>0.5即y/1-y>1，y/1-y就相当于正例可能性比上反例可能性）。再缩放的主要思想就是既然类别不平衡了那么我们将1改成m+/m-即正类数/负类数，即：
劣势：再缩放是在假设“训练集是真实样本的总体的无偏采样”，但往往不成立
再缩放是代价敏感学习的基础（Cost-sensitive Learning）：代价敏感学习将正负类数量比替换成正负类分错代价比。研究的最多的是误分类代价。
基于劣势，有下三类做法：
- 欠采样（Undersampling）：去除一些反例使正反例数目接近再学习，代表性算法是EasyEnsemble。
- 过采样（Oversampling）：增加一些正例使正反数目接近再学习，一般用插值造例子。代表性算法是SMOTE。
- 阈值移动（Threshold-moving）：直接基于原始训练集学习，但在用训练好分类器进行预测时，将再缩放公式嵌入到决策过程中。
注意