大数据具有规模性(volume)、多样性(variety)、高速性(velocity)和准确性(veracity)四个特点,其前期研究工作主要集中在规模性和多样性上展开,而目前广泛存在并应用的数据是像金融、交通等场景下产生的流式数据,流数据不同于传统的静态数据形态,作为一种新型大数据的数据形态更多的体现了大数据要求的数据量大和实时性的特点。流数据需要我们从海量信息中更快的提取有价值的信息。因此,面向大数据的流分类挖掘研究显得尤为重要。流式数据分为稳定数据流和动态数据流,稳定数据流[18]中的数据具有稳定独立同分布的特点,而动态数据流是不独立同分布的,因此会产生概念漂移。
分类挖掘算法广泛应用在传感器网络、网络入侵检测、电话呼叫日志、银行风险评估等应用场景中[19]。这些场景下的数据往往是随着时间不断产生而且数据量大且数据模型可能发生变化,如大型商场中顾客的购物倾向会随着时间变化,网络安全中对入侵检测也随着用户不同而变化,工业生产中有问题的产品往往是相近的问题,然而共性的问题特征也是不断变化的。社交网络中用户行为将随着位置信息发生改变。流式数据有数据量大、数据不断产生并且可能发生概念漂移三个特点[20]。所以基于大数据的分类挖掘算法不仅需要对发生概念漂移数据具有很高的灵敏度,并且需要对最新的数据尽早的做出判断从而对模型自适应的调整[21]。概念漂移是数据挖掘中一个需要重要研究的问题。目前的数据挖掘算法系统大多数都是针对静态数据的,所以本质上都不具有抵抗流式数据概念漂移的能力。现有的数据挖掘系统不能实时更新数据并自适应计算模型或者不能保持原本建立的模型[22]。
文献[23]中首次提出“概念漂移”的概念后,国内外的数据挖掘研究人员对概念漂移分别展开了深入研究。其中,文献[24]中