广义OOD数据检测方法的概念辨析

为了清楚OOD(Out-of-Distribution)数据的概念及各种相关检测方法的区别,阅读了论文《Generalized Out-of-Distribution Detection: A Survey》,以下是几种检测方法的概念区别总结。

广义OOD检测

包含了异常检测(AD)、新颖性检测(ND)、开集识别(OSR)、分布外(OOD)检测和离群点检测(OD)五个子问题(这几个问题在出发点和方法上与OOD密切相关,均基于一个“开放世界”的观察角度)

在开始区分这五个子问题前,需要明确分布偏移的概念,分布偏移分为协变量偏移、语义偏移。

  • 协变量偏移(Covariate Shift):表层统计层面上的分布变化;

  • 语义偏移(Semantic Shift):深层语义层面上的分布变化。

即,如果用X代表图片像素空间的变量,Y代表图片语义空间的变量,就可以用P(X, Y)来表示一组图片的分布,其中:

  • 像素空间分布P(X)的偏移就是协变量偏移,可能来源于对抗样本或者画风的变化。

  • 语义空间分布P(Y)的偏移就是语义偏移,可能来源于新类别的加入。

下图展现了这两种分布偏移:

 

异常检测(Anomaly Detection,AD)

区分“正常”与“异常”。例如“非热狗检测器”,“正常”即为食物中的热狗类,“异常”即为米饭、猫狗等非热狗类。

重点特征:AD将ID样本视为一个整体,即无论ID数据中有多少个类,AD都不需要在ID样本中进行区分。该特征是AD与其他子问题如OSR、OOD检测的重要区别。

AD的偏移既有可能是协变量偏移,也有可能是语义偏移。

新颖性检测(Novelty Detection,ND)

ND与AD的差别在于对检测出的“分布外”数据的处理态度:AD认为这样的测试样本是错误的,而ND则认为是“新颖的”,将用于未来的各种用途(如模型的增量学习等)。

ND更关注语义偏移。

开集识别(Open Set Recognition,OSR)

背景:在封闭世界环境中训练的机器学习模型可以将来自未知类的测试样本错误地分类为具有高置信度的已知类别之一。使用OSR解决这种问题。

因此OSR的目的为:对已知类别进行准确分类的同时,能检测出未知类别,知道其不属于训练集中的任何已知类别。

与ND的区别:OSR额外要求了对P(Y)中的ID样本也要准确分类。

OOD检测(OOD Detection)

和新类识别类似,都是在找出测试集中不属于训练集中任何类别的“新类”样本。但是在新类识别的基础上,同时完成多分类任务。相比于OSR,OOD检测的训练集可以是单类别的也可以是多类别的。

与OSR的主要差异:

  1. OOD检测的训练集可以是单类别的也可以是多类别的,而OSR是多类别;

  2. OSR通常是将一个多类分类数据集内部拆为ID和OOD(如MINIST拆分成:0-5为ID、6-9为OOD),而OOD检测通常是将一个数据集作为ID,另找几个其他数据集作为OOD,以保证ID、OOD数据集的类别完全不重叠;

  3. OOD检测包含更广泛的学习任务和解决方案。

OOD检测主要关注语义偏移。

离群点检测(Outlier Detection, OD)

与所有之前的子任务所定义的ID不同(以上所有子任务定义的ID数据均在训练过程中定义),用于离群点检测的ID指的是大多数观测值。离群值是一个与大多数观测值显著不同的数据点。可能是由于语义偏移也可能是由于协变量偏移。

OD的偏移既有可能是协变量偏移,也有可能是语义偏移。

下图能很清楚地说明以上几个子问题的关系:

 

OOD检测方法主要分为4类:基于分类的方法、基于密度的方法、基于距离的方法、基于重构的方法,这部分将在下一篇博文中讲解。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海苔小饼干

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值