《机器学习》读书笔记3

第三章 线性模型

线性模型主要用于回归,也可用于分类。

 

3.1 基本形式

线性模型(linear model)试图学得一个属性的线性组合来进行预测的函数,即

f(x)=w1x1+w2x2+。。。+wdxd+b

用向量形式写成


其中w={w1; w2; …; wd}。

 

线性模型主要用于回归任务,具有很好的可解释性,而且可通过层级结构和高维映射作为非线性模型的基础。

 

3.2 线性回归

多元线性回归(linear regression)是通过最小二乘法来求取一个样本分布曲线,使所有样本到曲线的欧氏距离之和最小。最小二乘法(又称最小平方法)通过最小化误差的平方和寻找数据的最佳函数匹配。

,对于为满秩矩阵或正定矩阵时,通过最小二乘法可获得如下解:

,则最终学到的多元线性回归模型为

但是,实际任务中很少是满秩的,所以会求出多个,然后根据归纳偏好来确定选哪个。

 

对于指数关系的变化,可以采用对数线性回归(log-linear regression)将其转化为线性关系进行回归分析。类似的,有广义线性模型(generalized linear model),其中函数g()称为“联系函数”(linkfunction),具有单调可微性:

 

3.3 对数几率回归

广义线性模型中,有一种对数几率回归可用于分类任务,通过对数几率函数(logistic function:)来将分类任务常用的单位阶跃函数转化为广义线性模型:

y若视为样本为正例的可能性,则1-y则是负例的可能性,故上式称为“对数几率”,且有:

对数几率回归的好处是可以直接对分类可能性进行建模,不仅能预测出“类别”标签,还能得到近似概率预测,而且对率函数是任意阶可导的凸函数,方便求取最优解。

 

若令,可用“极大似然法”(maximum likelihood method)的对率回归模型最大化“对数似然”(log-likelihood)来求得B的一阶、二阶导数:

如上导数为0即可求得B的解。

 

3.4 线性判别分析

线性判别分析(linear discriminant analysis,LDA)的思想为:设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离,新样本则根据投影点位置来确定类别。

二分类LDA根据贝叶斯决策理论,当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分解。

 

多分类LDA将样本投影到N-1维空间,是一种经典的监督降维技术。

 

LDA跟聚类有所类似,但是不是聚类,因为LDA的样本是带类别标记的。

 

3.5 多分类学习

基本策略是利用二分类学习器来解决多分类学习任务,先拆分成若干个二分类任务求解,然后再集成获得多分类结果。拆分策略有:“一对一”(OvO),“一对其余”(OvR)和“多对多”(MvM)。

 

OvO将N个类别两两配对,从而产生N(N-1)/2个二分类器,在测试阶段,新样本将同时提交给所有分类器,最终结果可通过投票产生,即把被预测得最多的类别作为最终分类结果。

 

OvR则每次将一个类的样例作为正例、所有其他类的样例作为负例来训练N个分类器,在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果,若多个分类器预测为正类,则选择置信度大的分类器的结果。

 

MvM则是每次将若干个类作为正类,若干个其他类作为负例,最常用的MvM技术是纠错输出码(Error Correcting OutputCodes,ECOC)。ECOC分为编码和解码两步,解码阶段是将预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为结果。具体做法可看书。

 

3.6 类别不平衡问题

类别不平衡问题是指分类任务中不同类别的训练样例数目差别大的情况,类别不平衡问题可能导致学习器不能正确预测。此类问题的解决思路是“再缩放”(rescaling),具体包括“欠采样”、“过采样”和“阈值移动”三类做法来修正类别不平衡的问题。

 

3.7 阅读材料

略。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值