Out-of-distribution Detection系列专栏（四）

最新推荐文章于 2024-04-01 17:05:31 发布

DS..

最新推荐文章于 2024-04-01 17:05:31 发布

阅读量989

点赞数 4

分类专栏： OOD Detection 文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_36478718/article/details/122454170

版权

OOD Detection 专栏收录该内容

10 篇文章 52 订阅

订阅专栏

前言

Learning confidence for out-of-distribution detection in neural networks

前言

在前面的三次专栏中，我们已经熟悉了FGSM，Max-Softmax以及ODIN这三种方法，在这次专栏中，我们要记录的是一个对Max-Softmax架构进行优化的方法。文章依然延续了题目太长的特点。

Learning confidence for out-of-distribution detection in neural networks

论文链接：https://arxiv.org/pdf/1802.04865.pdf

Motivation

这篇文章从一个比较有意思的角度切入，借鉴了学与问的思想，并加入了奖惩机制。作者认为，传统的神经网络做OOD检测效果不好的原因在于：Softmax输出的得分并没有置信度或者是概率的含义，它仅仅是为了最小化与one-hot标签的交叉熵损失得到的结果而已。因此，在本文中，作者引出了一个新的分支，并且赋予了其“置信度”的含义，通过使用文中提出的奖惩机制的训练方法，作者得到了超过其他方法的一系列结果。

Methodology

将模型输出的预测标签 $p_i$ 看作是一个学生的回答，将真实的标签 $y_i$ 看作是标准答案。对于神经网络这个学生，他应该这样来学习：对于自己拿不准的输入，应该看一下答案；对于自己非常有把握的输入，应该独立判断而不借助于答案。为了保证平衡，看答案是会引入惩罚的，而我们期望的一个好学生的样子应该是：在学习过程中，不断地增加对输入的把握程度，也就是越来越不用去看答案。上面这个解释中的“把握程度”就是我们说的置信度，也就是网络有多大的概率判定输入样本是来自于ID数据的。这样，通过实际赋予新的分支“置信度”的含义，按照上述符合常理的方式训练，得到的输出就是表征当前样本来自ID的概率，从而可以用来计算AUROC和AUPR。下图展示了Learning Confidence的结构：

可以看出，网络的两个分支共享底层卷积特征，其中一个分支用于预测类别，一个分支用于输出网络对当前样本的置信度。

模型构建

我们用 $p,c=f(x,\theta)$ 来表示上图中网络结构，其中 $c$ 代表的是置信度输出， $p$ 代表的是类别输出。其中，类别输出是经过Softmax映射的归一化形式，置信度输出是经过 $\sigma(\cdot)$ 函数映射的形式。对于每一个样本，我们并不是使用输出 $p$ 直接去和真实标签做交叉熵损失，而是对 $p$ 进行如下的变换：

$p'=c\cdot p+(1-c)\cdot y$

也就是说，模型的输出标签是模型自身的预测结果 $p$ 和真实结果 $y$ 的一个线性组合，而组合的系数正是模型的置信度 $c$ 。可以看出，当模型的置信度达到1，也就是对当前的样本有完全的把握时，有 $p'=p$ ，这就与通常的分类网络一致了。文章中使用变换后的输出结果 $p'$ 与真实标签 $y$ 做交叉熵损失，形式如下：

$L_t=-\sum_{i=1}^{M}y_i\log p'_i$

在文章中，作者把这一设计看作是学生向老师或者是答案求教，但是不能允许这种情况无限制的发生，我们希望学生渐渐有自己判断的能力。于是，对于每一次求教，也就是较低的置信度 $c$ ，会引入一个惩罚。惩罚项的设计如下：

$L_c=-\log(c)$

也就是说，我们希望网络的置信度越大越好。这样，通过加权和的形式，就得到了网络训练的整体损失函数：

$L=L_t+\lambda L_c$

训练技巧

这个损失函数并不是十分稳定的，因此在训练过程中需要动态调节加权和中，权重系数 $\lambda$ 的大小。在文章中，作者提到：

当训练过程中的惩罚损失 $L_c$ 较高时，说明网络总是在求助于真实标签，说明求助的代价太小了。此时为了提升网络的自立能力，需要增加求助的代价，让网络少看答案，也就是要增加惩罚系数 $\lambda$ 。
当训练过程中的惩罚损失 $L_c$ 较低时，说明网络很少看真是标签，都是用自己的输出在计算，说明了看真实标签的惩罚代价太高了。此时为了鼓励网络看一下真实标签，需要减小对求助的惩罚，也就是要减小系数 $\lambda$ 。