「吃瓜记」第3章线性模型

最新推荐文章于 2022-10-19 20:59:35 发布

秀球Gang

最新推荐文章于 2022-10-19 20:59:35 发布

阅读量159

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43401035/article/details/118916194

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

「吃瓜记」第3章线性模型

3.1 基本形式
3.2 线性回归
3.3 对数几率回归
3.4 线性判别分类
3.5 多分类学习
3.6 类别不平衡问题
参考资料

3.1 基本形式

线性模型：试图学得一个通过属性的线性组合来进行预测的函数，即：
在这里插入图片描述
一般用向量形式写成：

在线性模型的基础上通过引入层级结构或高维映射可得到许多功能更为强大的非线性模型（nonlinear model）。

w 直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性（comprehensibility）。

3.2 线性回归

线性回归 linear regression：试图学得一个线性模型以尽可能地预测实值输出标记。

对离散属性：

若属性值间存在“序”（order）关系，可通过连续化将其转化为连续值。
若属性之间不存在序关系，假定属性值有k个，则通常转化为k维向量。

在这里插入图片描述
（1）当输入属性只有一个的时候，称为一元线性回归。基于均方误差MSE最小化来进行模型求解的方法称为“最小二乘法”（least square distance），使用求偏导等于零的方法计算出拟合直线y=wx+b的两个参数w和b，计算过程如下图所示：

（2）当输入属性有多个的时候，称为多元线性回归。通常对于多元问题，常常使用矩阵的形式来表示数据。在本问题中，将具有m个样本的数据集表示成矩阵X，将系数w与b合并成一个列向量，这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式：

在这里插入图片描述

现实中，矩阵（X的转置*X）往往不是满秩矩阵，此时可解出多个w，选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化（regularization）。

更一般地，考虑所有y的衍生物的情形，就得到了“广义的线性模型”（generalized linear model），其中，g（*）称为联系函数（link function）。

机器学习三要素：

模型：根据具体问题，确定假设空间
策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”）
算法：求解损失函数，确定最优模型

3.3 对数几率回归

对数几率引入了一个对数几率函数（logistic function）,将预测值投影到0-1之间，从而将线性回归问题转化为二分类问题。

在这里插入图片描述

若将y看做样本为正例的概率，（1-y）看做样本为反例的概率，则上式实际上使用线性回归模型的预测结果器逼近真实标记的对数几率。因此这个模型称为“对数几率回归”（logistic regression），也有一些书籍称之为“逻辑回归”。下面使用最大似然估计的方法来计算出w和b两个参数的取值。

在这里插入图片描述

对数几率回归算法的机器学习三要素：

模型：线性模型，输出值的范围为[0, 1]，近似阶跃的单调可微函数
策略：极大似然估计，信息论
算法：梯度下降，牛顿法

3.4 线性判别分类

线性判别分析（Linear Discriminant Analysis，简称LDA）,其基本思想是：将训练样本投影到一条直线上，使得同类的样例尽可能近（同类样本的方差尽可能小），不同类的样例尽可能远（异类样本的中心尽可能远）。如图所示：

在这里插入图片描述

想让同类样本点的投影点尽可能接近，不同类样本点投影之间尽可能远，即：让各类的协方差之和尽可能小，不用类之间中心的距离尽可能大。基于这样的考虑，LDA定义了两个散度矩阵。

类内散度矩阵（within-class scatter matrix）

类间散度矩阵(between-class scaltter matrix)

在这里插入图片描述

因此得到了LDA的最大化目标：“广义瑞利商”（generalized Rayleigh quotient）。

在这里插入图片描述

从而分类问题转化为最优化求解w的问题，当求解出w后，对新的样本进行分类时，只需将该样本点投影到这条直线上，根据与各个类别的中心值进行比较，从而判定出新样本与哪个类别距离最近。求解w的方法如下所示，使用的方法为λ乘子。

在这里插入图片描述

若将w看做一个投影矩阵，类似PCA的思想，则LDA可将样本投影到N-1维空间（N为类簇数），投影的过程使用了类别信息（标记信息），因此LDA也常被视为一种经典的监督降维技术。

3.5 多分类学习

现实中我们经常遇到不只两个类别的分类问题，即多分类问题，在这种情形下，我们常常运用“拆分”的策略，通过多个二分类学习器来解决多分类问题，即将多分类问题拆解为多个二分类问题，训练出多个二分类学习器，最后将多个分类结果进行集成得出结论。最为经典的拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“多对多”（MvM），核心思想与示意图如下所示。

OvO：给定数据集D，假定其中有N个真实类别，将这N个类别进行两两配对（一个正类/一个反类），从而产生N（N-1）/2个二分类学习器，在测试阶段，将新样本放入所有的二分类学习器中测试，得出N（N-1）个结果，最终通过投票产生最终的分类结果。
OvM：给定数据集D，假定其中有N个真实类别，每次取出一个类作为正类，剩余的所有类别作为一个新的反类，从而产生N个二分类学习器，在测试阶段，得出N个结果，若仅有一个学习器预测为正类，则对应的类标作为最终分类结果。
MvM：给定数据集D，假定其中有N个真实类别，每次取若干个类作为正类，若干个类作为反类（通过ECOC码给出，编码），若进行了M次划分，则生成了M个二分类学习器，在测试阶段（解码），得出M个结果组成一个新的码，最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。

在这里插入图片描述