ICCV2021 Oral | UNO：用于“新类发现”的统一目标函数，简化训练流程！已开源！...

最新推荐文章于 2024-09-02 09:55:08 发布

我爱计算机视觉

最新推荐文章于 2024-09-02 09:55:08 发布

阅读量794

点赞数 1

文章标签：大数据 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/120137120

版权

本文提出了新类发现任务的统一目标函数UNO，它通过多视图自标记策略简化了训练流程，无需自监督预训练。在CIFAR-100和ImageNet上，UNO展现出优于现有方法的表现。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

▊ 写在前面

在本文中，作者研究了新类发现（Novel Class Discovery (NCD)）的问题。NCD的目标是通过利用包含不同但相关类的标记集的先验知识来推断未标记集中的新对象类别 。现有的方法通过考虑多个目标函数来解决这个问题，通常包括分别涉及标记样本和未标记样本的专门损失项，此外还需要辅助正则化项。

在本文中，作者引入了一个新类发现任务的统一目标函数(UNO)，其明确的目标函数有利于监督学习和无监督学习之间的协同作用。使用多视图自标记策略，生成可以与ground truth标签同源处理的伪标签，使得在已知类和未知类上都可以用单一目标进行分类。尽管UNO很简单，但在几个基准测试上表现都比较不错(在CIFAR-100上为≈+10%，在ImageNet上+8%)。

▊ 1. 论文和代码地址

A Unified Objective for Novel Class Discovery

论文：https://arxiv.org/abs/2108.08536

代码：https://github.com/DonkeyShot21/UNO

▊ 2. Motivation

深度学习使计算机视觉领域取得了惊人的进展。然而，对于这些模型的大型标注训练集的必要性往往是一个限制因素。例如，训练一个深度神经网络进行分类需要为每个感兴趣的类别提供大量的标记数据。在为每个类收集足够数据是非常困难的情况下，这种约束甚至更加严重，例如在医疗应用程序中。

为了缓解这些问题，新类发现(NCD)最近已经成为一个实用的解决方案。NCD的目标是训练一个网络，它可以对一组有标记的数据进行分类，同时在一个未有标记的图像集中发现新的类。这背后的motivation是网络受益于在标记集上可用的监督信号，以学习丰富的图像表示，可以转移到发现未标记集中的未知类 。

在训练时，数据被分割成一组标记图像和一组未标记图像（假设类集不相交）。这两组训练集同时用来训练单个网络来对已知类和未知类进行分类。这个问题与半监督学习相似但不同，因为在后者中，前提是标记集和未标记集共享相同的类。在NCD中，这两组类应该是不相交的。此外，与常见的聚类场景不同，在NCD框架中，标记数据可以在训练时被利用，其挑战在于在已知类上转移监督知识，以改进未知类的聚类。

大多数NCD方法通常在标记集上执行初始监督预训练步骤，然后在未标记数据集上执行聚类的步骤。这个简单的pipeline提供了一种有效的方法来将表示能力从标记的集合转移到未标记的集合。一般来说，这些方法结合了两个独立的目标。一方面，通过标签集上的标签进行直接监督。

另一方面，使用聚类目标来发现新的类别。聚类目标通常是基于在未标记集上估计的伪标记。在实践中，这些目标分别通过独立的损失函数进行组合，如cross-entropy(CE)和 binary cross-entropy(BCE)。BCE损失是用成对的伪标签来计算的，通常是通过设置一个特殊的阈值来确定的，但这严重影响了这些方法的性能。

此外，NCD方法通常需要标记类和未标记类之间的强语义相似性，以获得发现新类的表达性特征表示。为了减少特征对已知类别的偏差，以前的一些工作提出在监督预训练前，对所有可用的图像使用一个额外的自监督预训练阶段。

此外，另一个自监督目标加强了聚类阶段，迫使该模型对同一图像的两个不同数据增强输出相似的预测。添加一个额外的辅助目标会使这个模型的优化更加麻烦，因为它需要进一步调整这些目标函数的超参数。

此外，该方法假设在预训练阶段具有未标记集的可用性。这在顺序学习时是不合适的，因为每次未标记的集合发生变化时，都需要重复进行自监督预训练阶段，这样成本是非常高的。

受简化NCD方法的启发和自监督学习的最新进展的启发，本文提出通过单个损失函数来消除自监督的预训练步骤，并统一所有的训练目标（如上图所示）。具体来说，使用多视图自标记策略，生成可以用ground-truth标签同源处理的伪标签。这使得在标记集和未标记集上使用统一的交叉熵损失成为可能。给定一个Batch的图像，使用随机转换生成每个图像的两个视图。

然后，网络预测了每个视图的所有类（标记为+未标记）的概率分布。这将产生了两个独立Batch的子集，由于是同一张图片的不同数据增强结果，因此每个视图都可以作为其他视图的伪标签。然后结合ground-truth和伪标签，向网络提供反馈并更新其参数。使用一个基于完整类集的统一框架，我们能够学习一个可以共同识别标记类和未标记类的单个模型。

▊ 3. 方法

在NCD任务中，训练数据被分为两组：一个标记集和一个未标记集。任务的目标是使用来发现，其中是预先已知的。