非平衡数据流学习——概念入门

最新推荐文章于 2023-11-13 08:16:16 发布

shaoyue1234

最新推荐文章于 2023-11-13 08:16:16 发布

阅读量342

点赞数 1

分类专栏：非平衡数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaoyue1234/article/details/100021766

版权

非平衡数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

非平衡数据流学习——概念入门

非平衡数据流学习——概念入门

非平衡数据流学习——概念入门

名词解释

数据流(data stream)：随时间依次到来的数据项。
概念飘移(concept drift)：学习的概念随着时间而变化。
- 分类：
  - 按是否影响分类边界分为：虚概念飘移(Virtual concept drift)、实概念飘移(real concept drift)
  - 按照变化率分为：增量（incremental）、逐渐（gradual）、突然（sudden）、复现（recurring）

评价指标

预测表现
由于非平衡性的存在，通常使用后验AUC，后验G-means或者类别召回率来评价算法的好坏
内存消耗
更新时间
算法为适应数据流中的新数据而更新所需要的时间。
决策时间
算法为数据流中的新数据做决策而需要的时间。

非平衡数据流特点

同时出现概念飘移与非平衡率飘移
概念和非平衡率都会随着时间而不断变化
类别之间的关系在动态的变化
Majority类可能在过一段时间之后，变为Minority类。没有绝对的多数类和少数类。
存在类别的出现与消失
可能会出现下述情况：在只有A，B类的数据流中，出现了C类，再随着时间的推移，A类数据消失，数据流中只有B，C两类。
数据性质会发生变化
原本在类别边界的点，随着时间的推移，变为类别的中心。
不容易获得Ground truth

主流方法

数据层面
通过上下采样，人为的调整非平衡的比率。
缺点：可能改变类别分布，不能处理概念飘移
算法层面
通过改变权重来提高小类数据的重要性
集成方法
通过把多个分类器集成在一起，提高算法表现
其他
- 一些专门针对类别进化（class evolution）问题提出的算法
- 获取Ground Truth
  通过主动学习等方法增加数据流中的类别标签

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。