A BASELINE FOR DETECTING MISCLASSIFIED AND OUT-OF-DISTRIBUTION EXAMPLES IN NEURAL NETWORKS论文解读

最新推荐文章于 2024-06-18 14:40:58 发布

选择>>努力>>躺平

最新推荐文章于 2024-06-18 14:40:58 发布

阅读量2k

点赞数 2

分类专栏： OOD

本文链接：https://blog.csdn.net/qq_33221657/article/details/110449750

版权

OOD 专栏收录该内容

4 篇文章

订阅专栏

A BASELINE FOR DETECTING MISCLASSIFIED AND OUT-OF-DISTRIBUTION EXAMPLES IN NEURAL NETWORKS论文解读

INSIGHT

基于深度模型的 OOD Detection 的第一篇工作，简写为SMOOD(SoftMax OOD)：该篇工作提出了一个基于深度模型的 OOD Detection baseline，后续的很多工作都是由此展开。主要的 insight 是：
1.相比于错误分类的样本和 OOD 样本，分类正确的样本会得到更大的 maximum softmax 概率。
2.模型会给错误分类的样本和 OOD 样本给予高的 maximum softmax 概率，模型的输出概率不能直接代表模型的置信度(confidence)。

PROBLEM FORMULATION AND EVALUATION

定义了2个问题，分别是：
1.成功或者失败检测。就是检测一个held-out test example 是正确还是错误，或者是成功还是失败。
2.in- and out-of-distribution detection 在数据内或在数据外检测。就是检测出一个测试样本是在分布内的数据还是分布外的数据。
2个评估指标分别是：
1.AUROC the AUROC can be interpreted as the probability that a positive example has a greater detector score/value than a negative example AUROC指标表示的是正样本排在负样本的之前的概率值
2.AUPR the base rate of the positive class greatly influences the AUPR 正样本比例会影响AUPR的结果

SOFTMAX PREDICTION PROBABILITY AS A BASELINE

基础的softmax 预测概率模型构建
对于具体的任务，获取基础模型结果的sotfmax distribution，通过softmax distribution去预测类目的概率值。通过这样，可以检测一个例子是否错误或者是ood。

EXPERIMENTS

1.cv

在这里插入图片描述
这里这么去看效果。
AUROC 指标相对基础版本高，说明模型能识别大部分正例样本，且好于基础base版本
AUPRSUCC高于 BASE 说明模型好于基础版本，AUPRSUCC和AUPRERR有很大的差距，说明可以通过设定预测出的得分阈值，检测是否是错误样本；wrong mean值高，说明如果只单独计算softmax无法检测出是否是错误样本，这点在论文中已有描述。这里AUROC没有设定AUROCERR和AUROCSUCC 是因为这俩个结果是一致的 AUROC = P(S > E) = P(-E > -S).
在这里插入图片描述

表2和表1类似，部分AUPRIn/和AUPROUT无法区分是因为噪音加的不够，导致无法区分，本质还是为了说明模型相对基础版本提升了，同时模型也能够进行ID和OOD检测
2.nlp
略类似cv
3.asr
略类似cv

CONCLUTIONS

We demonstrated a softmax prediction probability baseline for error and out-of-distribution detection
across several architectures and numerous datasets.
提出了一个softmax预测概率的基础模型，用于错误和OOD检测。又提出了一个创新的检测模型abnormality module，用于ASR，这里感兴趣的可以参看论文，思路和上面的类似。
本篇作为OOD的开山之作，定义了基础