概念漂移

本文探讨了大数据环境下,特别是流数据中的概念漂移现象。面对动态数据流,传统数据挖掘算法无法应对,因此需要研究能抵抗概念漂移的流分类挖掘算法。文章介绍了概念漂移的类型和影响,以及各种应对策略,包括单个分类器的改进和集成分类器的更新。同时,提到了一些具体的算法如VFDT和基于决策树的方法,强调了实时性和自适应性在处理流数据中的重要性。
摘要由CSDN通过智能技术生成

大数据具有规模性(volume)、多样性(variety)、高速性(velocity)和准确性(veracity)四个特点,其前期研究工作主要集中在规模性和多样性上展开,而目前广泛存在并应用的数据是像金融、交通等场景下产生的流式数据,流数据不同于传统的静态数据形态,作为一种新型大数据的数据形态更多的体现了大数据要求的数据量大和实时性的特点。流数据需要我们从海量信息中更快的提取有价值的信息。因此,面向大数据的流分类挖掘研究显得尤为重要。流式数据分为稳定数据流和动态数据流,稳定数据流[18]中的数据具有稳定独立同分布的特点,而动态数据流是不独立同分布的,因此会产生概念漂移。

分类挖掘算法广泛应用在传感器网络、网络入侵检测、电话呼叫日志、银行风险评估等应用场景中[19]。这些场景下的数据往往是随着时间不断产生而且数据量大且数据模型可能发生变化,如大型商场中顾客的购物倾向会随着时间变化,网络安全中对入侵检测也随着用户不同而变化,工业生产中有问题的产品往往是相近的问题,然而共性的问题特征也是不断变化的。社交网络中用户行为将随着位置信息发生改变。流式数据有数据量大、数据不断产生并且可能发生概念漂移三个特点[20]。所以基于大数据的分类挖掘算法不仅需要对发生概念漂移数据具有很高的灵敏度,并且需要对最新的数据尽早的做出判断从而对模型自适应的调整[21]。概念漂移是数据挖掘中一个需要重要研究的问题。目前的数据挖掘算法系统大多数都是针对静态数据的,所以本质上都不具有抵抗流式数据概念漂移的能力。现有的数据挖掘系统不能实时更新数据并自适应计算模型或者不能保持原本建立的模型[22]

文献[23]中首次提出“概念漂移”的概念后,国内外的数据挖掘研究人员对概念漂移分别展开了深入研究。其中,文献[24]

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值