「吃瓜记」第3章 线性模型

3.1 基本形式

线性模型:试图学得一个通过属性的线性组合来进行预测的函数,即:
在这里插入图片描述
一般用向量形式写成:
在这里插入图片描述
在线性模型的基础上通过引入层级结构或高维映射可得到许多功能更为强大的非线性模型(nonlinear model)。

w 直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility)。

3.2 线性回归

线性回归 linear regression:试图学得一个线性模型以尽可能地预测实值输出标记。

对离散属性:

  • 若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值。
  • 若属性之间不存在序关系,假定属性值有k个,则通常转化为k维向量。

在这里插入图片描述
(1)当输入属性只有一个的时候,称为一元线性回归。基于均方误差MSE最小化来进行模型求解的方法称为“最小二乘法”(least square distance),使用求偏导等于零的方法计算出拟合直线y=wx+b的两个参数w和b,计算过程如下图所示:

2.png

(2)当输入属性有多个的时候,称为多元线性回归。通常对于多元问题,常常使用矩阵的形式来表示数据。在本问题中,将具有m个样本的数据集表示成矩阵X,将系数w与b合并成一个列向量,这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式:

3.png

5.png

在这里插入图片描述

现实中,矩阵(X的转置*X)往往不是满秩矩阵,此时可解出多个w,选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化(regularization)。

更一般地,考虑所有y的衍生物的情形,就得到了“广义的线性模型”(generalized linear model),其中,g(*)称为联系函数(link function)。

8.png

机器学习三要素

  1. 模型:根据具体问题,确定假设空间

  2. 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)

  3. 算法:求解损失函数,确定最优模型

3.3 对数几率回归

对数几率引入了一个对数几率函数(logistic function),将预测值投影到0-1之间,从而将线性回归问题转化为二分类问题。

9.png

在这里插入图片描述

若将y看做样本为正例的概率,(1-y)看做样本为反例的概率,则上式实际上使用线性回归模型的预测结果器逼近真实标记的对数几率。因此这个模型称为“对数几率回归”(logistic regression),也有一些书籍称之为“逻辑回归”。下面使用最大似然估计的方法来计算出w和b两个参数的取值。

在这里插入图片描述

在这里插入图片描述

对数几率回归算法的机器学习三要素

  1. 模型:线性模型,输出值的范围为[0, 1],近似阶跃的单调可微函数
  2. 策略:极大似然估计,信息论
  3. 算法:梯度下降,牛顿法

3.4 线性判别分类

线性判别分析(Linear Discriminant Analysis,简称LDA),其基本思想是:将训练样本投影到一条直线上,使得同类的样例尽可能近(同类样本的方差尽可能小),不同类的样例尽可能远(异类样本的中心尽可能远)。如图所示:

在这里插入图片描述

14.png

想让同类样本点的投影点尽可能接近,不同类样本点投影之间尽可能远,即:让各类的协方差之和尽可能小,不用类之间中心的距离尽可能大。基于这样的考虑,LDA定义了两个散度矩阵。

  • 类内散度矩阵(within-class scatter matrix)

15.png

  • 类间散度矩阵(between-class scaltter matrix)

在这里插入图片描述

因此得到了LDA的最大化目标:“广义瑞利商”(generalized Rayleigh quotient)。

在这里插入图片描述

从而分类问题转化为最优化求解w的问题,当求解出w后,对新的样本进行分类时,只需将该样本点投影到这条直线上,根据与各个类别的中心值进行比较,从而判定出新样本与哪个类别距离最近。求解w的方法如下所示,使用的方法为λ乘子。

在这里插入图片描述

若将w看做一个投影矩阵,类似PCA的思想,则LDA可将样本投影到N-1维空间(N为类簇数),投影的过程使用了类别信息(标记信息),因此LDA也常被视为一种经典的监督降维技术。

3.5 多分类学习

现实中我们经常遇到不只两个类别的分类问题,即多分类问题,在这种情形下,我们常常运用“拆分”的策略,通过多个二分类学习器来解决多分类问题,即将多分类问题拆解为多个二分类问题,训练出多个二分类学习器,最后将多个分类结果进行集成得出结论。最为经典的拆分策略有三种:“一对一”(OvO)、“一对其余”(OvR)和“多对多”(MvM),核心思想与示意图如下所示。

  • OvO:给定数据集D,假定其中有N个真实类别,将这N个类别进行两两配对(一个正类/一个反类),从而产生N(N-1)/2个二分类学习器,在测试阶段,将新样本放入所有的二分类学习器中测试,得出N(N-1)个结果,最终通过投票产生最终的分类结果。
  • OvM:给定数据集D,假定其中有N个真实类别,每次取出一个类作为正类,剩余的所有类别作为一个新的反类,从而产生N个二分类学习器,在测试阶段,得出N个结果,若仅有一个学习器预测为正类,则对应的类标作为最终分类结果。
  • MvM:给定数据集D,假定其中有N个真实类别,每次取若干个类作为正类,若干个类作为反类(通过ECOC码给出,编码),若进行了M次划分,则生成了M个二分类学习器,在测试阶段(解码),得出M个结果组成一个新的码,最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。

在这里插入图片描述

3.6 类别不平衡问题

类别不平衡(class-imbanlance)就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正例有900个,而反例只有100个,这个时候我们就需要进行相应的处理来平衡这个问题。常见的做法有三种:

  1. 在训练样本较多的类别中进行“欠采样”(undersampling),比如从正例中采出100个,常见的算法有:EasyEnsemble。

  2. 在训练样本较少的类别中进行“过采样”(oversampling),例如通过对反例中的数据进行插值,来产生额外的反例,常见的算法有SMOTE。

  3. 直接基于原数据集进行学习,对预测值进行“再缩放”处理。其中再缩放也是代价敏感学习的基础。

    21.png

参考资料

  1. 机器学习,周志华,清华大学出版社
  2. 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秀球Gang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值