传统抵抗概念漂移算法和系统-CSDN博客

本文链接：https://blog.csdn.net/tanhy21/article/details/53363624

本文介绍了几种处理数据流中概念漂移的有效算法，包括STAGGER、FLORA、OLIN和UFFT。这些算法通过不同策略如实例选择、权重设置、滑动窗口调整等来应对概念漂移挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（1） STAGGER和FLORA
有效的抵抗概念漂移算法及系统需要能够追踪数据流概念漂移所发生的变化并不断的适时的根据变化而更新现有的模型。最早能够处理概念漂移问题的是FLORA和STAGGER[28]系统。目前来处理概念漂移问题主要有三方面的思路，一是通过实例选择，通过选择最近概念的实例来建立模型。一种是通过对实例设置权重来决定哪些实例更具有建立模型的价值。最后一种是通过集成学习通过投票或者权重机制来决定最终的模型。STAGGER是最早用于挖掘数据流的系统，STAGGER通过增加新的属性节点或者概念链接调整链接权重来学习和跟踪概念漂移。FLORA系统利用一个适时的时间窗口来实现样本的遗弃。窗口的大小和样本的遗弃速率通过监督器自适应学习。当系统运行良好时将增大窗口的大小。相反，当发生概念漂移性能发生下降时窗口将自适应的减小。当样本超过一定的时间将会被从局部的内存中移除从而实现以时间为基础的样本遗弃。
（2）OLIN
Last[43]等人提出了一种使用IFN(info-fuzzy network)网络的在线分类系统，该系统又称为OLIN(在线信息网络On Line Information Network)，该系统根据动态数据流上的最新样本建立滑动窗口。系统动态调整训练样本窗口的大小并且根据概念漂移发生的频率动态更新模型。OLIN系统通过训练样本之间的概念漂移统计显著性差异以及最新模型的预测准确率作为动态数据流是否发生概念漂移的标志。OLIN在重构模型过程中启发式动态调整样本数，如果概念未发生漂移则增加当前模型建立所需的样本。如果检测到发生概念漂移则减小窗口的大小从而减少样本。OLIN为每个新的滑动窗口建立一个新的模型。这个方法保证了随着时间的推移分类精度也能提高。但是OLIN算法有一个主要的缺点：生成新的模型时将产生很高的内存开销，OLIN不考虑新的模型替代原有模型的开销。
（3）UFFT
Gama，Medas和Rocha等人提出极速算法UFFT[44]（Ultra Fast Forest of Trees）。UFFT是通过建立二叉树森林有监督的分类学习算法。UFFT是增量式且在恒定时间内处理每个样本。UFFT利用分析技术来选择分裂标准处理连续数据流，通过信息增益评估每个可能分裂测试结点的好坏。对于多类的问题，算法为每一对可能相近的类建立一个二叉树从而构造一个树的森林。UFFT算法在样本训练期间保持一个暂时的内存，保证给定数据流中有限的最新样本固定时间内保存在数据结构中来支持插入和删除。当测试节点一旦建立，叶子节点就变成带有两个子叶子节点的决策结点。通过短期内存中的样本量初始化每个叶子节点的统计信息。UFFT算法在决策树的每个节点上保持一个朴素贝叶斯分类器。通过样本统计值建立的分类器在变成叶子节点时需要根据分裂准则评估其是否符合分裂要求。叶节点变成决策节点后遍历结点的所有样本将通过朴素贝叶斯分类器进行分类。概念漂移探测方法最基本的思想是控制错误率。如果未发生概念漂移，朴素贝叶斯分类器的错误率会降低。发生概念漂移后朴素贝叶斯的错误率将上升。当探测到给定节点的分类错误显著上升时表明现有的分裂结点不再合适。原来结点下的子树将被修剪并重新变为叶子结点并重新初始化。