非平衡数据流学习——概念入门

非平衡数据流学习——概念入门

名词解释

  • 数据流(data stream):随时间依次到来的数据项。
  • 概念飘移(concept drift):学习的概念随着时间而变化。
    • 分类:
      • 按是否影响分类边界分为:虚概念飘移(Virtual concept drift)、实概念飘移(real concept drift)
      • 按照变化率分为:增量(incremental)、逐渐(gradual)、突然(sudden)、复现(recurring)

评价指标

  1. 预测表现
    由于非平衡性的存在,通常使用后验AUC,后验G-means或者类别召回率来评价算法的好坏
  2. 内存消耗
  3. 更新时间
    算法为适应数据流中的新数据而更新所需要的时间。
  4. 决策时间
    算法为数据流中的新数据做决策而需要的时间。

非平衡数据流特点

  1. 同时出现概念飘移与非平衡率飘移
    概念和非平衡率都会随着时间而不断变化
  2. 类别之间的关系在动态的变化
    Majority类可能在过一段时间之后,变为Minority类。没有绝对的多数类和少数类。
  3. 存在类别的出现与消失
    可能会出现下述情况:在只有A,B类的数据流中,出现了C类,再随着时间的推移,A类数据消失,数据流中只有B,C两类。
  4. 数据性质会发生变化
    原本在类别边界的点,随着时间的推移,变为类别的中心。
  5. 不容易获得Ground truth

主流方法

  • 数据层面
    通过上下采样,人为的调整非平衡的比率。
    缺点:可能改变类别分布,不能处理概念飘移
  • 算法层面
    通过改变权重来提高小类数据的重要性
  • 集成方法
    通过把多个分类器集成在一起,提高算法表现
  • 其他
    • 一些专门针对类别进化(class evolution)问题提出的算法
    • 获取Ground Truth
      通过主动学习等方法增加数据流中的类别标签
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值