非平衡数据流学习——概念入门
非平衡数据流学习——概念入门
名词解释
- 数据流(data stream):随时间依次到来的数据项。
- 概念飘移(concept drift):学习的概念随着时间而变化。
- 分类:
- 按是否影响分类边界分为:虚概念飘移(Virtual concept drift)、实概念飘移(real concept drift)
- 按照变化率分为:增量(incremental)、逐渐(gradual)、突然(sudden)、复现(recurring)
- 分类:
评价指标
- 预测表现
由于非平衡性的存在,通常使用后验AUC,后验G-means或者类别召回率来评价算法的好坏 - 内存消耗
- 更新时间
算法为适应数据流中的新数据而更新所需要的时间。 - 决策时间
算法为数据流中的新数据做决策而需要的时间。
非平衡数据流特点
- 同时出现概念飘移与非平衡率飘移
概念和非平衡率都会随着时间而不断变化 - 类别之间的关系在动态的变化
Majority类可能在过一段时间之后,变为Minority类。没有绝对的多数类和少数类。 - 存在类别的出现与消失
可能会出现下述情况:在只有A,B类的数据流中,出现了C类,再随着时间的推移,A类数据消失,数据流中只有B,C两类。 - 数据性质会发生变化
原本在类别边界的点,随着时间的推移,变为类别的中心。 - 不容易获得Ground truth
主流方法
- 数据层面
通过上下采样,人为的调整非平衡的比率。
缺点:可能改变类别分布,不能处理概念飘移 - 算法层面
通过改变权重来提高小类数据的重要性 - 集成方法
通过把多个分类器集成在一起,提高算法表现 - 其他
- 一些专门针对类别进化(class evolution)问题提出的算法
- 获取Ground Truth
通过主动学习等方法增加数据流中的类别标签