机器学习:西瓜书 线性模型 学习笔记

1.基本形式

线性模型的定义:线性模型试图得到一个以各个属性值为自变量的线性函数进行预测。
线性模型的优点:线性模型非常简单,并且可以根据权重向量中各个权重的大小直观解释各属性在预测过程中的重要性。很多更强大的非线性模型可以在线性模型的基础上通过引入层级结构或高维映射获得。

2.线性回归

离散属性转化为连续属性的方法:如果属性值之间存在有序的关系,则可以将其直接转化为连续值;如果属性值之间不存在有序关系,则可以转化为一个K维向量。
线性回归的参数选择原则:试图使得均方误差最小化是线性回归最常用的优化原则。基于均方误差最小化来进行模型求解的方法称为最小二乘法。线性回归中的最小二乘法就是试图找到一条直线使得所有样本到该直线的欧氏距离之和最小。
样本数和变量数的关系:在一些问题中,会遇到数据的样本数小于样本的属性个数,此时线性模型可以求解出多组系数向量,选择其中哪一个解进行输出由学习算法的归纳偏好决定,常见的方法是引入正则化项。
广义线性模型的定义:广义线性模型是指自变量和因变量经过一定转化后可以转化为线性模型的模型,用于转化的函数称为联系函数,要求连续函数连续且充分光滑。

3.对数几率回归

对数几率函数:对数几率函数即y=1/(1+exp(-z))。该函数是一种Sigmoid函数,也就是形似S的函数。
对数几率回归的概念:对数几率回归模型即Logistic回归模型,也就是常说的逻辑回归模型。其虽然名字是回归,但是本质上是一种分类方法。可以使用“极大似然法”估计模型的参数。
对数几率回归的优点:直接对分类进行建模,无需事先假设数据分布;不仅给出分类的类别,同时还可以给出近似概率。

4.线性判别分析

线性判别分析的基本思想:给定训练样例集,尝试把样例投影到一条直线上,使得同类样例的投影点尽可能接近,不同类样例的投影点尽可能原理;对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。
线性判别分析的相关概念:线性判别分析也被称为Fisher线性判别分析,求解过程中需要定义“类内散度矩阵”和“类间散度矩阵”。线性判别分析也可以推广至多分类问题,同时该方法也是一种经典的监督降维算法。

5.多分类学习

多分类学习的基本思路:拆解法,也就是把多分类任务拆成若干个二分类任务进行求解。具体来说,首先对问题进行拆分,然后对拆出来的每个二分类任务训练一个分类器,在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。
多分类问题的拆分策略:最经典的拆分策略包括一对一拆分、一对多拆分和多对多拆分。
①一对一拆分:一对一拆分可以得到多个二分类器。假设存在N个类别,则需要N(N-1)/2个二分类器,每一次输入一个样本都同时使用这些二分类器进行分类,综合其所有分类结果进行投票并选择分类最多的类别作为每个样本的分类结果。
②一对多拆分:一对多拆分每次将一个类的样例作为正例,其他所有类的样例都视为反例。一对多拆分的存储开销和测试时间一般比一对一拆分小,但是在类别很多时训练时间更长,一般情况下两者的预测性能差不多。
③多对多拆分:多对多拆分则是每次把若干个类作为正类,另外若干个类作为反类。多对多拆分的正反例构造必须有特殊的设计而不能随意选择,常用的一种技术是“纠错输出码”(ECOC)。

6.类别不平衡问题

类别不平衡问题的定义:当分类任务中不同类别的训练样例数目差别很大时,可能会对学习过程产生困扰,影响最终的预测结果。
类别不平衡问题的解决:可以使用欠采样法、过采样法和再缩放三种方法缓解不平衡问题。(以下内容均假设正类样例较少,反类样例较多)。
①欠采样法:去除一些反例使得正反例数目接近。这种方法时间开销远小于过采样法,但是需要注意不能随意丢弃反例。
②过采样法:增加一些正例使得正反例数目接近。这种方法的时间开销比欠采样法大,同样需要注意不能仅仅进行简单重复采样。
③再缩放法:直接使用原始训练集进行学习,但是在进行预测时,需要根据样本中反例与正例的个数之比,按照公式合理修改分类的阈值。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值