非均衡分类问题

  1. 前言

    在我们研究非均衡分类这个问题前,我们先来讨论下一个问题。众所周知,在我们一开始学习诸多分类算法(如k-近邻算法,决策树,朴素贝叶斯,logistic,支持向量机,AdaBoost)时,我们一般都假设所有类别的分类代价是一样的,坦白说,在大多数情况下,不同类别的分类代价并不相等。

  2. 其他分类性能度量指标:正确率、召回率及ROC曲线

    在我们应用前言中提到的那些分类算法时,都是基于错误率来衡量分类器任务的成功程度的。实际上这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个叫作混淆矩阵的工具,可以帮助我们更好的了解分类中的错误。在分类中,当某个类别的重要性高于其他类别时,我们就可以利用上述定义来定义出多个比错误率更好的新指标。

    另一个用于度量分类中的非均衡的工具是ROC曲线,ROC代表接收者操作特征

  3. 基于代价函数的分类器决策控制

    在分类算法中,我们有很多方法可以用来引入代价信息。在AdaBoost中,可以基于代价函数来调整错误权重向量D。在朴素贝叶斯中,可以选择具有最小期望代价而不是最大概率的类别作为最后的结果。在SVM中,可以在代价函数中对于不同的类别选择不同的参数C。上述做法就会给较小类更多的权重,即在训练的时候,小类当中只允许更少的错误。

  4. 处理非均衡分类问题的数据抽样方法

    另一种针对非均衡问题调节分类器的方法,就是对分类器的训练数据进行改造。这可以通过欠抽样(undersampling)或者过抽样(oversampling)来实现。过抽样意味着复制样例,而欠抽样意味着删除样例。不管采用哪种方式,数据都会从原始形式改造为新形式。抽样过程则可以通过随机方式或者某个预定方式来实现。

  5. 总结

    分均衡分类问题是指在分类器训练时正例数目与反例数目不相等(相差很大)。该问题在错分正例和反例的代价不同时也存在。

     

     

     

     

     

     

     

     

     

     

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Roaring Kitty

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值