A BASELINE FOR DETECTING MISCLASSIFIED AND OUT-OF-DISTRIBUTION EXAMPLES IN NEURAL NETWORKS论文解读
INSIGHT
基于深度模型的 OOD Detection 的第一篇工作,简写为SMOOD(SoftMax OOD):该篇工作提出了一个基于深度模型的 OOD Detection baseline,后续的很多工作都是由此展开。主要的 insight 是:
1.相比于错误分类的样本和 OOD 样本,分类正确的样本会得到更大的 maximum softmax 概率。
2.模型会给错误分类的样本和 OOD 样本给予高的 maximum softmax 概率,模型的输出概率不能直接代表模型的置信度(confidence)。
PROBLEM FORMULATION AND EVALUATION
定义了2个问题 ,分别是 :
1.成功或者失败检测 。就是检测一个held-out test example 是正确还是错误 ,或者是成功还是失败。
2.in- and out-of-distribution detection 在数据内或在数据外检测 。就是检测出一个测试样本是在分布内的数据还是分布外的数据。
2个评估指标 分别是:
1.AUROC the AUROC can be interpreted as the probability that a positive example has a greater detector score/value than a negative example AUROC指标表示的是正样本排在负样本的之前的概率值
2.AUPR the base rate of the positive class greatly influences the AUPR 正样本比例会影响AUPR的结果
SOFTMAX PREDICTION PROBABILITY AS A BASELINE
基础的softmax 预测概率模型构建
对于具体的任务, 获取基础模型结果的sotfmax distribution,通过softmax distribution去预测类目的概率值 。通过这样,可以检测一个例子是否错误或者是ood。
EXPERIMENTS
1.cv
这里这么去看效果 。
AUROC 指标相对基础版本高,说明模型能识别大部分正例样本,且好于基础base版本
AUPRSUCC高于 BASE 说明模型好于基础版本,AUPRSUCC和AUPRERR有很大的差距,说明可以通过设定预测出的得分阈值,检测是否是错误样本 ;wrong mean值高,说明如果只单独计算softmax无法检测出是否是错误样本,这点在论文中已有描述。这里AUROC没有设定AUROCERR和AUROCSUCC 是因为这俩个结果是一致的 AUROC = P(S > E) = P(-E > -S).
表2和表1类似,部分AUPRIn/和AUPROUT无法区分是因为噪音加的不够,导致无法区分,本质还是为了说明模型相对基础版本提升了,同时模型也能够进行ID和OOD检测
2.nlp
略 类似cv
3.asr
略 类似cv
CONCLUTIONS
We demonstrated a softmax prediction probability baseline for error and out-of-distribution detection
across several architectures and numerous datasets.
提出了一个softmax预测概率的基础模型,用于错误和OOD检测。又提出了一个创新的检测模型abnormality module,用于ASR,这里感兴趣的可以参看论文,思路和上面的类似。
本篇作为OOD的开山之作,定义了基础