【论文阅读】DMLNet：深度度量学习开放世界语义分割

starbuling~

已于 2022-05-07 01:13:01 修改

阅读量1.8k

点赞数

分类专栏：计算机视觉文章标签：深度学习人工智能计算机视觉

于 2022-05-04 12:02:03 首次发布

本文链接：https://blog.csdn.net/qq_45623497/article/details/124567921

版权

title: DMLNet
date: 2022-05-03 20:07
Tag:

深度学习
异常分割
度量学习

开放世界语义分割

开集语义分割模块
- 闭集语义分割子模块
- 异常分割子模块
增量小样本学习模块

我是短小精悍的文章摘要(๑•̀ㅂ•́) ✧

CODE

multiscale 是自己设定的吗 cfg.DATASET.imgSizes = (300, 375, 450, 525, 600)

Seg 转化为long Tensor的目的是什么

colors的作用是什么

几个辅助函数的作用：

Normalization(x): $\dfrac{x - min(x)}{max(x) - min(x)}$

Coefficient_map(x, thre): $\dfrac{1}{1 + exp(50*(x - thre))}$

normfun(x, mu, sigma): $\dfrac{exp(-\frac{(x - mu)^2}{2 * \sigma^2})}{\sigma * \sqrt{2*\pi}}$

论文阅读

引言

Classical close-set semantic segmentation networks have limited ability to detect out-of-distribution (OOD) objects, which is important for safety-critical applications such as autonomous driving. Incrementally learning these OOD objects with few annotations is an ideal way to enlarge the knowledge base of the deep learning models. In this paper, we propose an open world semantic segmenta- tion system that includes two modules:

(1) an open-set semantic segmentation module to detect both in-distribution and OOD objects.

(2) an incremental few-shot learning module to gradually incorporate those OOD objects into its existing knowledge base.

This open world semantic segmentation system behaves like a human being, which is able to identify OOD objects and gradually learn them with corresponding supervision.

We adopt the Deep Metric Learning Network (DMLNet) with contrastive clustering to implement open-set semantic segmentation. Compared to other open-set semantic segmentation methods, our DMLNet achieves state-of-the-art performance on three challenging open-set semantic segmentation datasets without using additional data or generative models.

On this basis, two incremental few-shot learning methods are fur- ther proposed to progressively improve the DMLNet with the annotations of OOD objects

经典的闭集语义分割网络检测分布外 (OOD) 对象的能力有限，这对于自动驾驶等安全关键型应用很重要。增量学习这些带有少量注释的 OOD 对象是扩大深度学习模型知识库的理想方法。在本文中，我们提出了一个开放世界语义分割系统，包括两个模块：

(1) 一个开放集语义分割模块，用于检测内分布和OOD对象。

~~(2) 一个增量的小样本学习模块，逐渐将这些 OOD 对象纳入其现有的知识库。~~

这个开放世界的语义分割系统就像一个人，能够识别OOD对象并在相应的监督下逐渐学习它们。

我们采用具有==对比聚类的深度度量学习网络（DMLNet）==来实现开放集语义分割。与其他开放集语义分割方法相比，我们的 DMLNet 在三个具有挑战性的开放集语义分割数据集上实现了最先进的性能，而无需使用额外的数据或生成模型。

~~在此基础上，进一步提出了两种增量少样本学习方法，通过 OOD 对象的注释逐步改进 DMLNet~~

6. Conclusion

We introduce an open world semantic segmentation system which incorporates two modules:

an open-set segmentation module
an incremental few-shot learning module.

Our proposed open-set segmentation module is based on the deep metric learning network, and it uses the Euclidean distance sum criterion to achieve state-of-the-art performance.

Two incremental few-shot learning methods are proposed to broaden the perception knowledge of the network. Both modules of the open world semantic segmentation system can be further studied to improve the performance. We hope our work can draw more researchers to contribute to this practically valuable research direction.

我们介绍了一个开放世界语义分割系统，它包含两个模块：一个开放集分割模块和一个增量小样本学习模块。

我们提出的开放集分割模块基于深度度量学习网络，它使用欧几里德距离和标准来实现最先进的性能。

提出了两种增量少样本学习方法来拓宽网络的感知知识。开放世界语义分割系统的两个模块都可以进一步研究以提高性能。我们希望我们的工作能够吸引更多的研究人员为这个具有实际价值的研究方向做出贡献

1. 介绍

得益于高质量的数据集 [3,4,5]，深度卷积网络在语义分割任务 [1, 2] 中取得了巨大成功。这些语义分割网络在许多应用中被用作感知系统，如自动驾驶[6]、医疗诊断[7]等。然而，这些感知系统中的大多数都是闭集和静态的。闭集语义分割假设测试中的所有类都已经在训练期间参与，这在开放世界中是不正确的。如果闭集系统错误地将分发中标签分配给 OOD 对象 [8]，它可能会在安全关键型应用程序（如自动驾驶）中造成灾难性后果。同时，静态感知系统无法根据所见内容更新其知识库，因此，它仅限于特定场景，需要在一定时间后重新训练。为了解决这些问题，我们提出了一种开放集的动态感知系统，称为开放世界语义分割系统。它包含两个模块：

（1）一个开放集语义分割模块，用于检测OOD对象并将正确的标签分配给分布中的对象。

(2) 一个增量的小样本学习模块，将这些未知对象逐步合并到其现有的知识库中。

我们提出的开放世界语义分割系统的整个流程如图 1 所示

开放集语义分割和增量小样本学习都没有得到很好的解决。

对于开集语义分割，最重要的部分是在一张图像的所有像素中识别OOD像素，称为异常分割。异常分割的典型方法是将图像级的开集分类方法应用于像素级的开集分类。

这些方法包括基于不确定性估计的方法 [9, 10, 11, 12] 和基于自动编码器的方法 [13, 14]。然而，这两种方法已被证明在驾驶场景中无效，因为基于不确定性估计的方法会给出许多假阳性异常值检测 [15] 并且自动编码器无法重新生成复杂的城市场景 [16]。最近，基于生成对抗网络（基于 GAN）的方法 [16, 17] 已被证明是有效的，但它们远非轻量级，因为它们需要在管道中使用多个深度网络。

对于增量少样本学习，我们不仅要处理增量学习的挑战，例如灾难性遗忘[18]，还要处理少样本学习的挑战，包括从少量样本中提取代表性特征[19]

在本文中，我们建议使用 DMLNet 来解决开放世界语义分割问题。原因有三：

(1) DMLNet的分类原理是基于对比聚类，可以有效识别异常物体，如图2所示

度量学习：从数据中学习一种度量数据对象间距离的方法。其目标是使得在学得的距离度量下，相似对象间的距离小，不相似对象间的距离大。

传统的度量学习方法只能学习出线性特征，虽然有一些能够提取非线性特征的核方法被提出，但对学习效果也没有明显提升

深度度量学习：深度学习的激活函数学习非线性特征的优秀能力，深度学习方法能够自动地从原始数据中学出高质量的特征。因此深度学习的网络结构与传统的度量学习方法相结合能够带来理想的效果。

~~(2) DMLNet结合原型非常适合few-shot 任务[19]。~~

~~(3) DMLNet 的增量学习可以通过添加新的原型来实现，这是一种自然而有用的方法 [20]。~~

基于 DMLNet 架构，我们为开放集语义分割模块开发了两种未知识别标准，为增量少样本学习模块开发了两种方法。

根据我们的实验，这两个模块都被验证为有效且轻量级的。总而言之，我们的贡献如下：

我们率先推出开放世界语义分割系统，在实际应用中更加稳健实用。
我们提出的基于 DMLNet 的开放集语义分割模块在三个具有挑战性的数据集上实现了最先进的性能。
我们提出的few-shot 增量学习模块方法在很大程度上缓解了灾难性遗忘问题。
通过结合我们提出的开放集语义分割模块和增量少样本学习模块，实现了一个开放世界语义分割系统。

2. Related Work

2.1 异常语义分割

异常语义分割的方法可以分为两种趋势：基于不确定性估计的方法和基于生成模型的方法。

不确定性估计的基线是最大softmax概率（MSP），它首先在[9]中提出。 Dan 等人没有使用 softmax 概率。 [11]提出使用最大logit（MaxLogit）并取得更好的异常分割性能。贝叶斯网络采用深度学习网络的概率观点，所以它们的权重和输出是概率分布而不是特定的数字 [21, 22]。在实践中，Dropout [10] 或集成 [12] 通常用于近似贝叶斯推理。

自动编码器（AE）[23, 13] 和 RBM [14] 是典型的生成方法，假设 OOD 图像的重建误差大于分布内图像

最近，另一种基于 GAN 再合成的生成模型被证明可以基于其可靠的高分辨率像素到像素转换结果实现最先进的性能。 SynthCP [17] 和 DUIR [16] 是基于 GAN 再合成的两种方法。不幸的是，它们离轻量级还很远，因为必须依次使用两个或三个神经网络来进行 OOD 检测。

与它们相比，我们证明了基于对比聚类的 DMLNet 具有更好的异常分割性能，而只需要推理一次

2.2 深度度量学习网络

DMLNets 已用于多种应用，包括视频理解 [24] 和人员重新识别 [25]。 DMLNet 使用欧几里得、马氏距离或 Matusita 距离 [26] 将此类问题转换为计算度量空间中的嵌入特征相似度。

卷积原型网络和 DMLNets 通常一起用于解决特定问题，例如检测图像级 OOD 样本 [27、28、29] 和用于语义分割的小样本学习 [19、30、31]。我们也按照这种组合构建了第一个用于开放世界语义分割的 DMLNet

2.3 开放世界分类和检测

开放世界分类首先由 [32] 提出。这项工作提出了最近非异常值 (NNO) 算法，该算法在增量添加对象类别、检测异常值和管理开放空间风险方面非常有效。
最近约瑟夫等人。 [33]提出了一种基于对比聚类、未知感知提议网络和基于能量的未知识别标准的开放世界对象检测系统。我们的开放世界语义分割系统的管道与他们的相似，除了两个重要的区别使我们的任务更具挑战性：（1）在他们的开放集检测模块中，他们依赖于区域提议网络（RPN）是类不可知，因此也可以检测到未标记的潜在 OOD 对象。这样，OOD样本的信息对于训练是有效的。但是，我们专注于语义分割，其中训练中使用的每个像素都被分配了一个分布内标签，因此不能将 OOD 样本添加到训练中。 (2) 在增量学习模块中，他们使用新类的所有标记数据，而我们专注于自然更困难的少样本条件。很少有研究集中在增量小样本学习上，其中包括用于分类的增量小样本学习[34]、对象检测[35]和语义分割[36]

3. 开放世界语义分割

在本节中，我们给出了开放世界语义分割系统的工作流程。该系统由一个开放集语义分割模块和一个增量小样本学习模块组成。假设 $\mathcal{C}_{in} = \{\mathcal{C}_{in,1}, \mathcal{C}_{in,2},...,\mathcal{C}_{in,N} \}$ 是 N 个分布内的类，它们都在训练数据集中进行了注释，并且 $\mathcal{C}_{out} = \{\mathcal{C}_{out,1},\mathcal{C}_{out,2},...,\mathcal{C}_{out,M} \}$ 是训练数据集中没有遇到的 M 个 OOD 类

开集语义分割模块又分为两个子模块：闭集语义分割子模块和异常分割子模块。

$\hat{Y}^{close}$ 是闭集语义分割子模块的输出图，所以每个像素的类别 $\hat{Y}^{close}_{i,j} ∈ C_{in}$ 。
异常分割子模块的功能是识别OOD像素，其输出称为异常概率图： $\hat{P} \in [1,0]^{H \times W}$ ，其中 $H$ 和 $W$ 表示输入图像的高度和宽度。

基于 $\hat{Y}_{close}$ 和 $\hat{P}$ ，开集语义分割图 $\hat{Y}^{open}$

最低0.47元/天解锁文章

starbuling~

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
【论文阅读】DMLNet：深度度量学习开放世界语义分割

title: DMLNet深度学习异常分割度量学习开放世界语义分割开集语义分割模块闭集语义分割子模块异常分割子模块增量小样本学习模块我是短小精悍的文章摘要(๑•̀ㅂ•́) ✧CODEmultiscale 是自己设定的吗 cfg.DATASET.imgSizes = (300, 375, 450, 525, 600)Seg 转化为long Tensor的目的是什么colors的作用是什么几个辅助函数的作用.
复制链接

扫一扫