机器学习——第三章:超越两类分类

本文探讨了如何利用两类分类器解决多类问题,介绍了‘一对多’和‘一对一’策略,以及如何通过投票和得分转换来决定分类结果。同时,文章涉及回归学习,强调了避免过拟合的重要性,并讨论了不同的损失函数和聚类方法。此外,还提到了子群发现和关联规则学习作为描述性学习任务的应用。
摘要由CSDN通过智能技术生成

本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。

一对多或一对其余(需训练k-1个模型)、一对一(需训练k(k-1)个模型)方案是将两类分类器转化为多类分类器最常用的两种手段。

在采用一对多方案时,为了强制作出决策,我们必须在学习前或学习后设定各类别的顺序;如果采用的是一对一方案,则可通过投票的方式作出决策。

如果希望依据多个两类分类器来计算多类得分和概率,有许多不同的选择:

  • 可使用由基于损失的解码所得到的距离,并通过一些恰当的变换将其转化为得分。
  • 也可将每个两类分类器的输出作为特征(如果使用的是得分,则为实值;如果仅使用预测类别标号,则为二值型)并训练一个可产生多类得分的模型,如朴素贝叶斯模型或树模型。该方法具有普适性,但需要引入额外的训练过程。
  • 另外一种可考虑的普适方法不但简单,而且经常能够得到满意的结果,即从覆盖计数(即每类中被两类分类器预测为正类的实例总数)中导出得分。

将多类得分转换为分类结果的最简方式为:将得分最高的类作为预测结果。

利用两类分类器解决k类学习问题的一般步骤为:1、将问题分解为l个两类学习问题;2、在原始数据的两类版本上训练l个两类分类器;3、整个这l个分类器的预测结果,最终得到k类问题的预测结果。


回归学习的目标是从实例集中学习一个函数估计子。

回归似乎只是对离散分类的一种自然、无害的推广,然而事实并非如此简单。一方面,目标变量的分辨率发生了从相对较低到无穷大的质变。如果一味地试图在函数估计子中匹配这种精度,势必会导致过拟合。此外,实例的目标变量中有部分分量很有可能发生波动,而对于这种波动,前面用到的模型是无力刻画的。因此,人们通常会做出一些合理的假设——实例中含有噪声且估计子的核心目标是从数据中捕捉一般性的趋势或函数的形状。

线性回归中,通常,任意由n点构成的集和都可用一个阶数不大于n-1的多项式精确拟合。

为了避免过拟合,最好选择阶数尽可能低的多项式——通常人们会假设自变量和因变量之间存在简单的线性关系。

回归是一项可体现分组模型与评分模型差异的任务。

分组模型的理念是以一种巧妙地方式将实例空间划分为若干区隔,并为每个区隔拟合一个尽可能简单地局部模型。

模型所含地参数越多,就越能精确地拟合给定点集。

根据经验,为避免过拟合,从数据中估计地参数数量与数据点个数相比必须充分地小。

可通过将损失函数应用于裕量、惩罚负裕量及鼓励正裕量来对分类模型地性能进行评价。而回归模型地评价则通过将损失函数应用于残差来实现。

对于回归问题,最常见地损失函数为平方残差。这种形式的损失函数会为后续的数学处理带来诸多便利,而且当函数值的观测量为其真值叠加服从正态分布的随机噪声的结果这个假设成立时,选择平方残差形式的损失函数会得到坚实的理论支持。然而,平方损失对离群点比较敏感。


在描述性学习中,任务与学习问题二者是一致的。

另一方面,我们也可以说利用描述性学习可以发现真正的知识,这种应用通常适用于机器学习和数据挖掘的交叉研究领域。

预测性聚类和描述性聚类的区别非常微妙。包括K均值聚类在内的许多为人熟知的聚类算法所学习的都是预测性聚类。它们均是从训练数据中学习聚类模型,而该模型又可将新数据分配到某个簇中。

好的聚类所具有的共性是所有簇的散度(簇内散度或类内散度)远小于整个数据集的散度。

可将聚类问题定义为寻找某个可将簇内散度最小化的划分D=D_1\uplus \cdot \cdot \cdot \uplus D_K。然而,该定义仍然存在一些重要问题:

  • 上面所陈述的问题存在一个平凡解:令K=|D|,这样每个簇中含且仅含有一个实例,因而散度为0;
  • 如果实现固定K,对于大规模的数据集该问题都无法高效解决(为一个NP难问题)。

通常会采用如下两种解决方案:

  • 运用启发式方法找到一个“足够好”的解而非最好的可能解;
  • 允许各实例以一定概率属于多个簇,从而将问题转化为一个“软”聚类问题。

对于聚类模型的表示取决于它们是预测性模型,还是描述型模型或软聚类模型。

将n个数据点划分到c个簇中的描述性聚类可通过分划矩阵来表示。所谓分划矩阵是一个n\times c的二值矩阵,其中每行中仅含一个1(每列至少含有一个1,否则将出现空簇)。

软聚类对用于一个行归一化的n\times c矩阵。

预测性聚类方法会用各簇的中心或范例来表示各个簇。簇的边界可以是非线性的。

我们可将类内散度作为一种度量聚类质量的指标。

通常“一定不可连接”的实例对多余“必须连接”的实例对,而对此进行补偿式一个很好的思路。一种补偿方式是计算精度和查全率的调和平均,在信息检测领域的文献中,该指标通常被称为F度量。

子群模型并不试图去逼近标记函数,而是着眼于识别那些其类别分布与总体分布存在显著差异的子集。

子群本质上是一个两类分类器。

规则学习器尤其适用于子群发现,因为每条规则都可解释为一个独立的子群。

子群发现的评价指标更倾向于选择那些容量大约为整个数据集一半的子群。

所谓关联是指那些经常一同出现的事物。


有些模型可以轻松处理多类问题;但如果我们的模型本质上只能解决两类问题(如线性模型),则只能通过组合多个两类分类任务来解决多类问题。一种重要的思路是利用编码矩阵来整合多个两类分类器的结果。

对于回归问题,尽管利用平方损失函数来刻画残差会使模型对离群点比较敏感,但仍不失为一种好的选择。

在过拟合和欠拟合之间进行权衡有时被称为偏差-方差两难问题。

聚类模型既可以是预测性的,也可以是描述性的。前者意味着以完全无监督的方式构造一些类别,之后所学习到的模型便可按照通常的方式应用到未见实例。另一方面,描述性聚类仅适用于现有的数据。

与描述性聚类相似,关联规则发现是另一类完全无监督的描述性任务。

子群发现是一种描述性模型的有监督学习,其目标在于发现那些其目标变量的分布与总体存在显著差异的子集。

机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值