西瓜书学习笔记 第3章 线性模型


本文仅针对个人不熟知识点进行整理,已知内容或过于简单的就不整理了。

第3章 线性模型

3.2 线性回归(Linear Regression)

  1. 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
  2. 在x只有一个属性的情况下进行求解(推导过程):
    在这里插入图片描述
  3. 对于多个属性的情况,即多元线性回归,常常使用矩阵的形式来表示数据以及分析。在本问题中,将具有m个样本的数据集表示成矩阵X,将系数w与b合并成一个列向量。
    在这里插入图片描述
    则最优解w如下(当XTX为满秩矩阵或正定矩阵(即可逆)时,令其为0,解得:)
    在这里插入图片描述
  • 正则化(Regularization):但现实中我们经常会遇到不是满秩矩阵的不理想情况,导致X列数多于行数,XTX不满秩,此时会解出多个w解,多个解会因为学习算法的归纳偏好造成不同输出,面对这种情况,常见的做法是引入正则化
  • 正则化:应该叫做规则化,本质上是在模型中加入某些规则,加入先验,缩小解空间,减小出现错误解得可能性。
  • 正则化在机器学习中用于解决(改善)过拟合问题,减小测试(泛化)误差,降低模型复杂程度。(用尽量少的变量去拟合数据,在加入正则化后的||β`||要比 ||β||(beta是估计量向量),即向量长度变短,数学上叫做shrinkage)。
  • [正则化解释] https://www.zhihu.com/question/20924039
  • [正则化方法] L1 L2范数等(作为惩罚项)。
  • [超参数] 在开始学习设置的超参数,模型优化通常都需对超参数进行优化。

3.3 对数几率回归

  1. 替代单位跃阶函数:
    在这里插入图片描述
  • 对数几率函数是一种Sigmoid函数,将z值转化一个接近0或者1的y值,一般的大于0.5为正类。适合作为g函数。
  • “几率”:y/1-y中y为正例的可能性,1-y为反例可能性,两者比值称为几率,几率取对数为对数几率(Log Odds,称为logit)。
  1. 对数几率回归(Logistic Regression,logit Regression):用线性回归模型的预测结果去逼近真实标记的对数几率,因此成为对数几率回归,又称逻辑回归。
  • 直接对分类的概率建模,无需事先假设数据分布,避免假设不准确。
  • 不仅预测出类别,还得到近似概率预测,对辅助决策有用。
  • 对数几率函数是可导的凸函数,数学性质好,很多数值优化算法可用于求最优解。
  1. [数值优化] 迭代算法,求有或无约束条件下的最优解,比如拉格朗日等。
  2. 后验概率估计
    在这里插入图片描述
  • 极大似然法(Maximum Likelihood Method):极大似然是一种给定观察数据和模型求估计量的方法,用已知样本的结果,反推最有可能导致这样结果的参数值。在“反推最有可能导致这样结果的参数值”中我们用似然函数代表性能度量,从似然函数中反推的参数值就是最优解。
  • 最优解如何求:
    对数似然(Log-likelihood)先对概率连乘求对数(方便变成求和形式),再将其当作似然函数,再对估计量求导解得最优解。
    在这里插入图片描述
    可采用经典数值优化算法如梯度下降法(Gradient Descent Method),牛顿法(Newton Method)求最优解。
    补充
    参考链接https://zhuanlan.zhihu.com/p/180468508

3.4 线性判别分析

  1. 线性判别分析(Linear Discriminant Analysis,LDA):经典线性学习方法,在二分类问题上最早由Fisher提出,亦成为Fisher判别分析。基本思想是:将训练样本投影到一条直线上,使得同类的样例尽可能近,不同类的样例尽可能远。
    在这里插入图片描述
  2. 定义
    在这里插入图片描述
  3. 性能度量:如何度量分类效果?
    想让同类样本点的投影点尽可能接近,不同类样本点投影之间尽可能远,即:让各类的协方差之和尽可能小,不同类之间中心的距离尽可能大。
    在这里插入图片描述
    基于这样的考虑,LDA定义了两个散度矩阵。类内散度矩阵(Within-class Scatter Matrix),类间散度矩阵(Between-class Scatter Matrix)
    在这里插入图片描述
    因此得到了LDA最大化的目标(度量方法):广义瑞利商(Generalized Rayleigh Quotient),广义瑞利商越大,越优:
    在这里插入图片描述
    然后进行求解(需要再看)
  • 若将w看做一个投影矩阵,类似PCA的思想,则LDA可将样本投影到N-1维空间(N为类簇数),投影的过程使用了类别信息(标记信息),因此LDA也常被视为一种经典的监督降维技术。
  1. LDA可用作分类和降维,但实际上用作降维比较多:
    • 分类:假设各类样本符合高斯分布,用LDA投影后,用极大似然MLE算均值方差,得到该类概率密度分布函数。样本数据输入,投影,计算属于该类的概率,按概率最大的归类。
    • 降维:首先输入数据集D计算类间散度矩阵和类内散度矩阵Sw和Sb,计算Sw-1Sb;再计算Sw-1Sb的最大d个特征值对应的特征向量(w1,w2…wd)(即投影矩阵);对样本集中每一个样本特征Xi转换成Zi=W^T*Xi,输出数据集D‘。(从这里可以看出从X到Z起到了降维作用)。

3.5 多分类学习

现实中我们经常遇到不只两个类别的分类问题,即多分类问题,在这种情形下,我们常常运用“拆分”的策略,通过多个二分类学习器来解决多分类问题,即将多分类问题拆解为多个二分类问题,训练出多个二分类学习器,最后将多个分类结果进行集成得出结论。最为经典的拆分策略有三种:“一对一”(OvO)、“一对其余”(OvR)和“多对多”(MvM)。

  • OvO:给定数据集D,假定其中有N个真实类别,将这N个类别进行两两配对(一个正类/一个反类),从而产生N(N-1)/2个二分类学习器,在测试阶段,将新样本放入所有的二分类学习器中测试,得出N(N-1)个结果,最终通过投票产生最终的分类结果。
  • OvM:给定数据集D,假定其中有N个真实类别,每次取出一个类作为正类,剩余的所有类别作为一个新的反类,从而产生N个二分类学习器,在测试阶段,得出N个结果,若仅有一个学习器预测为正类,则对应的类标作为最终分类结果。
  • MvM:给定数据集D,假定其中有N个真实类别,每次取若干个类作为正类,若干个类作为反类(通过ECOC码给出,编码),若进行了M次划分,则生成了M个二分类学习器,在测试阶段(解码),得出M个结果组成一个新的码,最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。
    在这里插入图片描述
    在这里插入图片描述
  • MvM的正、反类构造有特殊的设计,其中一种常用的MvM技术是纠错输出码(Error Correcting Output Codes,简称ECOC)
    • 编码:对 个类别做 次划分, 每次划分将一部分类别划为正类,一部分划为反类,从而形成二分类 练集;这样一共产生 个训练集,可训练出个分类器
    • 解码:M 个分类器分别对测试样本进 预测,这些预测标记组成一个编码:将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。(欧式距离,海明距离(两代码对应位上编码不同的位数)等)

3.6 类别不平衡问题

  1. 类别不平衡问题(Class-Imbalance):指分类任务中不同类别的训练样例数目差别很大的情况。
  2. 解决类不平衡学习的策略:
  • 再缩放(Rescaling):基于原数据集新星学习,对预测值进行缩放。因为类平衡情况下,拿对数几率函数来说,我们一般在对新样本分类时拿预测出的y值与一个阈值比较(usually 0.5)大于为正例小于为反例(y>0.5即y/1-y>1,y/1-y就相当于正例可能性比上反例可能性)。再缩放的主要思想就是既然类别不平衡了那么我们将1改成m+/m-即正类数/负类数,即:
    [公式]
  • 劣势:再缩放是在假设“训练集是真实样本的总体的无偏采样”,但往往不成立
  • 再缩放是代价敏感学习的基础(Cost-sensitive Learning):代价敏感学习将正负类数量比替换成正负类分错代价比。研究的最多的是误分类代价。
  • 基于劣势,有下三类做法:
    • 欠采样(Undersampling):去除一些反例使正反例数目接近再学习,代表性算法是EasyEnsemble。
    • 过采样(Oversampling):增加一些正例使正反数目接近再学习,一般用插值造例子。代表性算法是SMOTE。
    • 阈值移动(Threshold-moving):直接基于原始训练集学习,但在用训练好分类器进行预测时,将再缩放公式嵌入到决策过程中。
  • 注意
    在这里插入图片描述

参考文献

  1. https://zhuanlan.zhihu.com/p/180468508
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值