类不平衡学习的集成学习方法

来自: 姚新的报告总结(南方科技大学教授)

一、动机

    给定一个分类问题,大多数的机器学习方法都会做出如下的假设:

         >每一个类具有相同的误分类代价;

         > 不同类的数据分布式平衡的;

        > 算法的目标是最大化分类的准确率(Accuracy)。

     然而,许多实际应用场景的数据每个类别都是不平衡分布的。Accuracy的结果会更加偏向于大类正确分类的结果。

二、类不平衡的学习

      类不平衡学习是指从不平衡数据集中学习算法的模型。不平衡数据是指一部分类(少数)的数据相对于其它类(大多数)的对类的表示更低,数据样本特别少。但数据的不平衡是指数据分布的不平衡,并不存在一个确定的类的样本个数之比来衡量不平衡的关系,也就是说不是单纯的考虑样本数据个数比值,而是关注数据分布。

    学习的难点:学习的模型在少数类中泛化性能差。

    学习的目标:得到一个分类器,能够实现在多数类以及少数(不平衡)的类上都具有高的准确率

举例:样本数据不平衡问题

      机器故障和机器正常,有故障时的数据量较少,而正常的数据多。但是我们队小类更加感兴趣。而在学习到的分类器对数据分类时,犯错(将故障判定为正常)的成本是不一样的。

三、已有的工作

     解决不平衡数据的分类器学习问题主要用三个大的方向:

   (1)重采样技术(Re-Sampling techniques):改变训练数据的样本个数

          - 只有少量样本数据的类别过采样

          - 有大量样本数据的类别欠采样

   (2)代价敏感的方法(Cost-sensitive methods):增加少数类的错分代价。但是在实际中,很难去确定一个合适代价值。

   (3)分类器集成的方法(Classification ensembles):联合多个分类器来提高性能。可以通过提高算法在不平衡数据上的学习效果来提高泛化性能。

    总之,就是分为重采样、代价权重和算法性能的提高3种大的类别。

四、为什么是集成学习的方法?

    首先,对于比较大的复杂的问题,设计一个整体的(monolithic)的系统去解决问题往往是比较困难的。

    其次,分而治之(Divide-and-conquer)的方法是解决此类问题比较常见的策略。

    然后,集成学习可以视为是一种自动实现分而治之策略的方法。集成学习有很好的理论特性能够解释它为什么能够工作。

五、什么是集成学习?

     

    我们有不同的方式可以决策出或者学习到。以及不同的训练算法,比如:Bagging, Boosting,negative correlation learning 等。

六、多样性

      Two heads are better than one! 三个臭皮匠顶一个诸葛亮。但为什么这三个臭皮匠可以呢?这是有要求的。首先,臭皮匠是高于平均水平的,而且具有互补的特性(体现为多样性)。

    多样性是集成学习的潜力所在!

    一个集成分类器使用正相关的个体学习,相对于单个分类器其优势是很微小的。多样性的集成能够提供更好的泛化性。

    那么如何定义多样性?怎么找?多样性如何用到不平衡数据中?

    那么,既然多样性在集成学习中如此重要,它在不平衡分类问题中有扮演什么样的角色呢?

    我们不但可以把多样性应用到损失函数中来得到具有多样性的学习器集合,也可以吧多样性引入到训练数据的产生上。

    例如,在adboost中我们训练一些列的分类器,并将上一次分类错误的样本作为下次分类器的训练样本。同时这一系列的分类器按照其分类的准确率给一个决策的权重,用于最终分类器的集成。在训练分类器时,除了将分类错误的样本加大权重进行分类,也应该加入具有多样性的样本给后面的分类器。这样后面的分类器可以提高性能。而少数(如异常)的类的样本与多数(如正常)的类的样本有很高的差异性,正好体现多样性。

七、在线学习是类不平衡学习的一个新方向?

    在线学习是按照时间序列收集样本数据的,同样的,存在着少数类和多数类,即不平衡问题。我们来分析为什么这是一个新的方向。首先,在线数据是当今另一种比较普遍存在的数据存在形式。然后,在线数据获取到的是带有时间戳的数据,使用历史数据不一定适用于现在的问题场景。从而,可能你获取到的少数类样本数量会更加的少。所以,这是一个新的研究问题。

八、总结

    • 集成学习可以在应用在类不平衡问题上具有可行性和竞争力。

    • 多样性是集成学习的关键问题。

    • 着眼于多样性能够设计出更好的集成学习算法。

    • 在线类不平衡学习是一个与此相关的新研究方向。

    • 但是这个思路也是需要更多的理论分析来支持

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值