多分类学习、类别不平衡

本文介绍了多分类学习的三种策略:OvO、OvR和MvM,其中详细阐述了OvO的高代价和OvR的投票机制,以及MvM中的纠错输出码(ECOC)方法,强调了ECOC的纠错能力和计算成本之间的平衡。同时,讨论了类别不平衡问题,指出其对分类器决策规则的影响。
摘要由CSDN通过智能技术生成

多分类学习

最经典的拆分策略有三种:“一对一(OvO)”、“一对其余(OvR)”、”多对多(MvM)”。
  OvO:将N个类别两两匹配,从而产生 N(N1)/2 个二分类器。将新样本提交给所有的分类器,得到了 N(N1)/2 个结果,最终结果通过投票产生。N比较大的时候,代价还是挺高。
  OvR:每次将一个类作为样例的正例,其他所有均作为反例,得到N个分类器。提交新的样本同时也得到N个结果,最终结果通过投票产生。
  MvM:每次将若干个类作为正例、若干个类作为反例。显然OvO、OvR都是其特例。MvM的正、反类设计必须有特殊的设计,常用的一种技术:”纠错输出码”,简称ECOC。
ECOC是将编码的思想引入类别的划分,并可能在解码过程中具有容错性。ECOC工作过程主要分为两步:
   对N个类做M次划分,每次划分将一部分作为正类,一部分划分反类,从而形成一个二分类训练集。一共产生M个训练集,训练出M个分类器。
   M个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类各自的编码进行比较,返回其中距离最小的类别作为最终结果。
这里写图片描述
对同一个学习任务来说,ECOC编码越长,纠错能力越强。然而编码越长所需要的训练的分类器越多,计算存储开销都会增大;另一方面对于有限类别码长超过一定范围就没有意义了。对于同等长度的编码,理论上来说,任务两个类别之间的编码距离越远,则纠错能力越强。

类别不平衡问题

  类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
  从线性分类器角度考虑,利用 y=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值