Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles i

蒋晨阳

已于 2022-08-08 15:31:47 修改

阅读量608

点赞数

分类专栏： CNN 文章标签：深度学习人工智能计算机视觉

于 2022-08-08 15:30:43 首次发布

原文链接：https://dx.doi.org/10.48550/arxiv.2107.11264

版权

CNN 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation

一、背景

处理异常物体检测问题中，常用的解决方法需要额外的数据库、重新训练网络或者建立生成模型，这些方法会引入额外的工作量、在推理时也会花费较大的时间。本文提出了一种方法，直接使用预训练网络的预测分数（logits）来检测未知物体。

在使用预训练网络的预测分数的方法中，有三种基本方法。这些方法都使用了预测结果中不同类的分数，并设定阈值，进而判断样本是否属于OoD，或未知物体。比如当前阈值为 0.7，网络对于某一样本的预测分数分别为，[苹果,香蕉,梨]=[0.6,0.2,0.3]，不考虑未知物体，则我们预测该样本为输出分数中的最大值所对应的类，即苹果。若考虑未知物体，由于其输出分数的最大值仅为 0.6，小于阈值，我们认为置信度较低，从而判定该样本为未知物体。使用不同的分数，有如下三种方法：

MSP 方法

第一种方法，最基本的思想是使用最大softmax概率（MSP，maximum softmax probability），正确分类的图像会有较大的MSP值，若分类得到的MSP较低，则可以认为其属于OoD样例，即属于未知类别。MSP方法的缺点在于softmax函数会产生较高的置信度，往往在OoD数据上也会产生较大的分数。

Max Logit 方法

第二种方法，直接使用softmax层之前的网络输出的最大值（max logit）用于判断未知样本。该方法优于第一种方法，其缺点是对于不同的类别，其对应的max logit分布不同，比如预测苹果的max logit分布在 [0.6-0.7] 区间，预测香蕉的max logit分布在 [0.65-0.9] 区间。

SML 方法

针对第二种方法的缺点，论文提出了 SML（standardized max logits）。即将 max logits 标准化，使得不同类别的max logits分布相同，从而可以通过阈值判断出OoD数据。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kj6dnrFP-1659943721478)(C:\Users\JiangChenyang\AppData\Roaming\Typora\typora-user-images\image-20220805191219121.png)]$

上图表示每个类别在训练集中对应的分数（MSP、ML、SML）所呈现的分布，红色表示判断正确的分数，蓝色表示将OoD数据误判为对应类别的分数。可以看到MSP的值普遍偏大，ML中各类之间分布差异较大，而SML中已知类和未知类之间具有较大的差异，且不同类之间具有较大的公共空白区。其中灰色区域表示假阳性区，即错误的将未知类判断为已知类。

二、论文贡献

论文主要贡献如下：

标准最大对数概率（Standardized max logits）方法，通过利用预训练模型的预测分数判断OoD数据
迭代边界抑制（iterative boundary supression）方法，用于解决边界置信度过低的问题
膨胀平滑（dilated smoothing）方法，用于解决较小区域置信度过低的问题

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DQ3xeZO9-1659943721480)(C:\Users\JiangChenyang\AppData\Roaming\Typora\typora-user-images\image-20220805192051723.png)]$

在分割任务中，对于输入图像，得到max logit分数图，由于不同类会有不同的max logit范围，因而对于蓝框部分（未知物体）的max logit会大于其他已知类的max logit，因而需要首先将max logit 进行标准化。随后注意到，不同类别的交接处max logit较低，会被误判为未知物体，因而采用边界抑制算法，消除边界处较低的置信度。最后在黄框部分可以发现有较小区域的未知物体，因而采用平滑方法，将偶然出现的max logit较低的区域平滑掉。

SML 方法

首先定义属于

图像
$X\in \mathbb{R}^{3\times H\times W}$
类别数目
$C$
logit 输出
$F\in\mathbb{R}^{C\times H\times W}$
max logit
$L_{h,w}\in\max_cF_{c,h,w}$
预测标签
$\hat{Y}_{h,w}=\arg\max_c F_{c,h,w}$

对每个类，计算出其max logits的平均值以及方差
$\mu_c=\frac{\sum_i\sum_{h,w}\mathbb{1}(\hat{Y}^{(i)}_{h,w}=c)\cdot L^{(i)}_{h,w}}{\sum_i\sum_{h,w}\mathbb{1}(\hat{Y}^{(i)}_{h,w}=c)}$

$\sigma_c^2=\frac{\sum_i\sum_{h,w}\mathbb{1}(\hat{Y}^{(i)}_{h,w}=c)\cdot (L^{(i)}_{h,w}-\mu_c)^2}{\sum_i\sum_{h,w}\mathbb{1}(\hat{Y}^{(i)}_{h,w}=c)}$

随后标准化 max logits 可以得到 SML $S\in\mathbb{R}^{H\times W}$
$S_{h,w}=\frac{L_{h,w}-\mu_{\hat{Y}_{h,w}}}{\sigma_{\hat{Y}_{h,w}}}$

迭代边界抑制

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tVfldK4L-1659943721480)(C:\Users\JiangChenyang\AppData\Roaming\Typora\typora-user-images\image-20220807104137108.png)]$

在该过程中迭代的将非边界像素值扩展到边界部分，使得边界部分逐渐变窄。论文假定边界宽度为一个特定值，随后在每次迭代中减小边界宽度。具体过程如下：

在第 $i$ 次迭代中，边界宽度为 $r_i$ ，获取到非边界点掩码 $M^{(i)}\in\mathbb{R}^{H\times W}$
$M^{(i)}_{h,w}=\begin{cases} 0,&\text{if}\,\exists h',w'\,s.t.\,\hat{Y}_{h,w}\neq\hat{Y}_{h',w'}\\ 1,&\text{otherwise} \end{cases}$
$M_{h,w}=1$ 表示 $(h, w)$ 位置的像素点表示的是非边界点，否则表示的是边界点。
在所有的边界点上进行边界平均池化（BAP，boundary-aware average pooling）算法，对于边界上的像素点 $b$ 以及其接收域 $\mathcal{R}$ ，该算法定义为
$BAP(S^{(i)}_\mathcal{R},M^{(i)}_\mathcal{R})=\frac{\sum_{(h,w)\in\mathcal{R}}S^{(i)}_{h,w}\times M^{(i)}_{h,w}}{\sum_{(h,w)\in\mathcal{R}}M^{(i)}_{h,w}}$
随后将 SML 之后点 $b$ 的值用 BAP 值进行代替。即使用边界值周围非边界点的平均值来取代边界点的值。

文章中， $r_0=4or8$ ，每次减小 $r$ 的幅值 $\Delta r=2$ ，接收域的大小为 $3\times 3$

膨胀平滑方法

除了边界点之外，还存在一些区域，真实值为已知物体，但是其max logit较小，会被误判为未知物体。若边界点周围的点分数较低，也会产生这些区域。文章基于空间连贯性的思想，该区域所代表的类与其周围区域所代表的类具有一致性。文章采用了滤波器进行平滑，并且使用膨胀（dilation）的操作对滤波器的接收域进行扩展。

论文中使用高斯卷积核 $K\in\mathbb{R}^{k\times k}$ 定义如下
$K_{i,j}=\frac{1}{2\pi\sigma^2}\exp{(-\frac{\Delta i^2+\Delta j^2}{2\sigma^2})}$
其中 $\Delta i=i-\frac{k-1}{2}$ , $\Delta j=j-\frac{k-1}{2}$ ，参数 $k=7,\sigma=1$ ，膨胀系数 $6$ 。

膨胀平滑示意如下：

即在卷积核之间增加一些空白区域。

蒋晨阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles i

处理异常物体检测问题中，常用的解决方法需要额外的数据库、重新训练网络或者建立生成模型，这些方法会引入额外的工作量、在推理时也会花费较大的时间。本文提出了一种方法，直接使用预训练网络的预测分数（logits）来检测未知物体。在使用预训练网络的预测分数的方法中，有三种基本方法。这些方法都使用了预测结果中不同类的分数，并设定阈值，进而判断样本是否属于OoD，或未知物体。比如当前阈值为0.7，网络对于某一样本的预测分数分别为，，不考虑未知物体，则我们预测该样本为输出分数中的最大值所对应的类，即苹果。......
复制链接

扫一扫

专栏目录