概念漂移简介

产生背景

学习算法通常需要在动态环境中运行,这些环境会出乎意料的发生变化。这些算法的一个理想特性是它们结合新数据的能力。如果数据生成过程不是严格固定的,那么预测的基础概念可能会随时间而变化。

概念漂移定义

概念漂移是指本质上相同数据的标签随时间的漂移。
流环境中统计分类模型的一个基本问题是预测器和响应变量之间的联合分布随时间变化(这种现象也称为概念漂移),因此导致它们的分类性能急剧下降。1
概念漂移主要是指当输入数据和目标变量之间的关系随时间变化是的在线监督学习场景。
在机器学习领域,必须构建预测模型,即输入特征(feature)与其对应输出目标(target)之间的映射函数。给定一组输入数据X ∈ Rp,分类任务中的目标是预测目标变量,即标签,y ∈ R1。若示例(X,y),那么根据贝叶斯理论,在预测模型中根据类的后验概率计算
分类任务经常可以分为离线学习和在线学习。离线学习中,整个训练数据必须在模型训练时可用。只有在训练完成时,模型才能用于预测。在线学习中,按照输入顺序处理数据。生成一个模型投入运行,而无需在开始时提供完整的培训数据集。随着更多训练数据的到来,该模型在运行期间不断更新。
还可以采用增量算法。增量算法中,逐个(或逐批)处理输入示例并在接收每个示例后更新决策模型。可以随机访问先前的示例或代表性/选择的示例。对于任何一个新的数据,模型的更新操作基于前一个2

真实世界的应用领域

概念漂移应用可以根据五个评估指标分为监控任务、决策、援助信息以及AI和机器人四个方面。这五个指标分别是学习速度、分类和预测精度、误分类惩罚、实际标签和不利活动。学习速度和输出处理数据的大小和决策的确定速度。例如,在欺诈侦查中,为了尽早制止犯罪,决策应该是迅速的,而在信用评估方面,决策可以在几天内做出。
Veena Mittal
监测任务(Monitoring and Control):由于数据量大,所以需要实时监控。主要包括计算机安全、通信、经济、运输交通、工业控制、信息、文档初始化、金融。其中计算机安全中涉及的概念漂移主要是由攻击行为产生的。
个人协助及沟通(Personal Assistance and Communication):分为两类(i)个人帮助和(ii)业务使用的客户概要。主要包括个人援助、实时情绪分析和事件监测、客户概况、生物医学应用。
AI和机器人中学习者需要适应不断变化的环境。主要包括机器人和移动系统、智能系统、虚拟真实(VR)2

分类

根据
(1)数据分布p(y|X)是否变化并且是否改变决策
(2)在不知到真实标签的情况下,是否可以从数据分布中看到变化,即p(X)是否变化。
两个角度来区别两个类型的漂移。

  • 真实概念漂移(real concept drift) :p(y|X)变化。无论p(X)是否变化,p(y|X)都有可能发生。只有真实的概念漂移才会改变类边界,那么之前的决策模型会过时。
  • 虚假概念漂移(virtual concept drift):如果输入的数据分布p(X)变化,但不影响p(y|X)。也称为临时漂移和特征变化等。在其他文献中也称虚拟漂移是一种不影响目标概念的漂移。
    不同的颜色对应不同的类别
    数据分布随时间的变化可能以不同的形式出现。
    1、突变(suddenly/abruply):概念可能突然从一个转向另一个
    2、渐增(incrementally):增量的包含许多中间的概念
    3、渐进(gradually):不会突然出现一个新的概念,而是不停地回到原来概念。
    4、异常值(outlier):或噪音,是指一次性的随机偏差或异常。不能将概念漂移与噪音混在一起。
    随时间变化的模式
    最后,漂移可能引入以前没有见过的新概念,或者以前见过的概念可能在一段时间后重新出现。变化可以进一步以严重程度、可预测性和频率为特征。3

相关技术

(待补充

技术检测概念漂移
DDM总体错误率
ECDD总体错误率
HDDM总体错误率
EDDM依靠相邻之间的平均距离分类错误
DDM-OCI处理少数类召回(minority class recall)
STEPD最近精度和整体精度的比例
PerfSim混淆矩阵四项的余弦相似性系数
HLFR同时跟踪混淆矩阵的四项

评估标准

混淆矩阵PtprPtnr
PpprTPFP
PnprFNTN

数据集

  • SEA34
  • Hyperplane
  • XES
  • spam
  • Usenet
  • elec
  • gaussian_data
  • kddcup
  • airlines
  • 4

参考文献


  1. Shujian Yu, Concept drift detection and adaptation with hierarchical hypothesis testing .Journal of the Franklin Institute. ↩︎

  2. JOAO GAMA .Survey on Concept Drift Adaptation.ACM Computing Surveys,2014. ↩︎ ↩︎

  3. Veena Mittal el.An Overview of Real World Applications with Concept Drifting Data Streams.ICIoTCT .2018. ↩︎ ↩︎

  4. Datasets for Concept Drift ↩︎ ↩︎

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值