产生背景
学习算法通常需要在动态环境中运行,这些环境会出乎意料的发生变化。这些算法的一个理想特性是它们结合新数据的能力。如果数据生成过程不是严格固定的,那么预测的基础概念可能会随时间而变化。
概念漂移定义
概念漂移是指本质上相同数据的标签随时间的漂移。
流环境中统计分类模型的一个基本问题是预测器和响应变量之间的联合分布随时间变化(这种现象也称为概念漂移),因此导致它们的分类性能急剧下降。1
概念漂移主要是指当输入数据和目标变量之间的关系随时间变化是的在线监督学习场景。
在机器学习领域,必须构建预测模型,即输入特征(feature)与其对应输出目标(target)之间的映射函数。给定一组输入数据X ∈ Rp,分类任务中的目标是预测目标变量,即标签,y ∈ R1。若示例(X,y),那么根据贝叶斯理论,在预测模型中
分类任务经常可以分为离线学习和在线学习。离线学习中,整个训练数据必须在模型训练时可用。只有在训练完成时,模型才能用于预测。在线学习中,按照输入顺序处理数据。生成一个模型投入运行,而无需在开始时提供完整的培训数据集。随着更多训练数据的到来,该模型在运行期间不断更新。
还可以采用增量算法。增量算法中,逐个(或逐批)处理输入示例并在接收每个示例后更新决策模型。可以随机访问先前的示例或代表性/选择的示例。对于任何一个新的数据,模型的更新操作基于前一个2。
真实世界的应用领域
概念漂移应用可以根据五个评估指标分为监控任务、决策、援助信息以及AI和机器人四个方面。这五个指标分别是学习速度、分类和预测精度、误分类惩罚、实际标签和不利活动。学习速度和输出处理数据的大小和决策的确定速度。例如,在欺诈侦查中,为了尽早制止犯罪,决策应该是迅速的,而在信用评估方面,决策可以在几天内做出。
监测任务(Monitoring and Control):由于数据量大,所以需要实时监控。主要包括计算机安全、通信、经济、运输交通、工业控制、信息、文档初始化、金融。其中计算机安全中涉及的概念漂移主要是由攻击行为产生的。
个人协助及沟通(Personal Assistance and Communication):分为两类(i)个人帮助和(ii)业务使用的客户概要。主要包括个人援助、实时情绪分析和事件监测、客户概况、生物医学应用。
AI和机器人中学习者需要适应不断变化的环境。主要包括机器人和移动系统、智能系统、虚拟真实(VR)2。
分类
根据
(1)数据分布p(y|X)是否变化并且是否改变决策
(2)在不知到真实标签的情况下,是否可以从数据分布中看到变化,即p(X)是否变化。
两个角度来区别两个类型的漂移。
- 真实概念漂移(real concept drift) :p(y|X)变化。无论p(X)是否变化,p(y|X)都有可能发生。只有真实的概念漂移才会改变类边界,那么之前的决策模型会过时。
- 虚假概念漂移(virtual concept drift):如果输入的数据分布p(X)变化,但不影响p(y|X)。也称为临时漂移和特征变化等。在其他文献中也称虚拟漂移是一种不影响目标概念的漂移。
数据分布随时间的变化可能以不同的形式出现。
1、突变(suddenly/abruply):概念可能突然从一个转向另一个
2、渐增(incrementally):增量的包含许多中间的概念
3、渐进(gradually):不会突然出现一个新的概念,而是不停地回到原来概念。
4、异常值(outlier):或噪音,是指一次性的随机偏差或异常。不能将概念漂移与噪音混在一起。
最后,漂移可能引入以前没有见过的新概念,或者以前见过的概念可能在一段时间后重新出现。变化可以进一步以严重程度、可预测性和频率为特征。3
相关技术
(待补充
技术 | 检测概念漂移 |
---|---|
DDM | 总体错误率 |
ECDD | 总体错误率 |
HDDM | 总体错误率 |
EDDM | 依靠相邻之间的平均距离分类错误 |
DDM-OCI | 处理少数类召回(minority class recall) |
STEPD | 最近精度和整体精度的比例 |
PerfSim | 混淆矩阵四项的余弦相似性系数 |
HLFR | 同时跟踪混淆矩阵的四项 |
评估标准
混淆矩阵 | Ptpr | Ptnr |
---|---|---|
Pppr | TP | FP |
Pnpr | FN | TN |
数据集
参考文献
Shujian Yu, Concept drift detection and adaptation with hierarchical hypothesis testing .Journal of the Franklin Institute. ↩︎
JOAO GAMA .Survey on Concept Drift Adaptation.ACM Computing Surveys,2014. ↩︎ ↩︎
Veena Mittal el.An Overview of Real World Applications with Concept Drifting Data Streams.ICIoTCT .2018. ↩︎ ↩︎