论文标题:
Generating Enhanced Negatives for Training Language-Based Object Detectors
论文作者:
Shiyu Zhao, Long Zhao, Vijay Kumar B.G, Yumin Suh, Dimitris N. Metaxas, Manmohan Chandraker, Samuel Schulter
导读:
基于自然语言的开集目标检测的最新进展很大程度上归功于找到能够更好利用任意格式文本注释数据的方法。事实证明,使用判别性目标函数训练此类模型需要良好的正样本和负样本。然而,这种任务形式使得负样本空间变得极其巨大。研究者利用生成模型的大量知识来自动构建与原始数据更相关的负样本。©️【深蓝AI】编译
1. 引言
在目标检测中使用自然语言来描述语义可以显著增加检测器标签空间的大小,并实现新的应用。虽然标准检测器在固定的标签空间上运行,但自然语言允许广泛的对象描述,从通用术语如“车辆”到特定表达,如“停在左侧的红色跑车”。在过去的几年里,一些研究通过新颖的训练策略和模型架构改进了基于语言的目标检测。
Referring expression或visual grounding数据集提供了训练所需的自然语言对象描述以及边界框注释。然而,这些数据只描述了图像中存在的东西,而没有描述图像中不存在的东西。并且,负样本的概念对于训练基于语言的检测器等判别模型至关重要。
图1|研究者工作的关键贡献是利用大语言模型和文生图扩散模型来自动生成负样本对象描述和图像,用于训练基于语言的对象检测器。与之前的工作相比,研究者生成的负样本与原始数据更相关,并为检测器提供了更好的训练信号©️【深蓝AI】编译
具有固定标签空间的检测数据集隐式或显式地提供负样本。任何与类别的边界框没有明显重叠的图像部分都认为不属于该类别。另一方面,对于一个对象的任意形式文本描述,负样本的空间是非常大的。虽然一些现有的数据集以任意格式文本提供负样本,但它们没有使用边界框进行注释。因此,现有的基于自然语言的检测器通常将一个对象的负样本定义为对同一图像中所有其他对象的描述或对其他随机样本的描述。然而,这样的负样本可能与原始的正样本描述没有直接关系,并且会定义一个较弱的训练信号(如图1)。通过明确评估人工整理的负样本,基准OmniLabel发现了现有的基于自然语言的检测器在正样本描述上的表现明显优于负样本描述的偏见。但需要注意的是,为大规模训练创建一个高质量的人工整理的负样本数据集是一项劳动密集型且昂贵的工作。
在这项工作中,研究者提出以任意格式文本和图像的形式显式自动生成负样本数据。先前的工作大多依赖基于规则的方法,且只关注语言领域或分类任务。相比之下,研究者利用生成式大语言模型和文生图扩散模型,为基于语言的目标检测自动创建相关但相互矛盾的对象描述以及相应的图像。
给定数据集的对象描述,研究者首先使用大语言模型生成语义上矛盾的描述,作为负样本。除了像之前的工作,基于显式知识图或大语言模型改变单个单词外,研究者还通过两种替代方法证明了改进的检测性能:
1)重组:大语言模型首先识别句子中的所有对象,然后通过重新排列、忽略或添加对象来创建一个矛盾的句子。
2)上下文摘要:研究者提示大语言模型总结从现有图像级数据集中收集的几个(少于100个)正负对的差异。然后将此摘要用作上下文,以生成更多此类示例。注意,这一步不需要视觉输入,允许研究者利用强大的大语言模型进行语义和文本推理。
此外,虽然之前的工作只关注文本,但研究者也利用像GLIGEN这样的文生图扩散模型来创建与生成的负样本对象描述相匹配的图像,作为额外的训练信号。虽然这种图像生成模型的直接输出通常是有噪声的,甚至是错误的,即与输入描述不匹配,但研究者提出了两个过滤步骤来显着降低噪声(根据实证研究显示,噪声从53%降至16%)。同时拥有负样本对象描述和相应的图像,使研究者能够改善训练基于语言的目标检测器的判别损失。
当研究者将自动生成的负样本数据添加到基线模型(如GLIP或FIBER)的训练中时,研究者的实验表明,在两个具有挑战性的基准测试中,在OmniLabel上提升了2.9+AP,在d3上提升了3.3+AP上,有明显的准确性提高。此外,研究者还提供了对生成数据(文本和图像)的深入分析,以及它们如何有助于更好地基于语言的检测。
本文贡献点如下:
1)使用大规模生成模型自动生成语义相关但矛盾的负样本文本和图像;
2)将负样本数据集成到基于语言的检测模型中的方法,如FIBER和GLIP;
3)对基于语言的检测基准的明显改进,包括对生成数据的彻底分析。
2. 相关工作
2.1 视觉和语言定位任务
开放词汇检测(ovd)需要一个模型来定位对象类别名称,而不需要看到它们的显式边界框注释。相比之下,研究者关注的是更通用的基于语言的目标检测任务,它超越了简单的类别名称。Referring expression理解(rec)旨在定位任意格式文本表达式的主体。然而,rec基准在评估更通用的基于语言的检测任务的各个方面方面都有所欠缺。Visual grounding (vg)任务是定位图像中标题的名词短语。尽管vg数据集本身就是一项任务,但它最近主要被用作ovd的训练数据。研究者的工作重点是基于通用语言的目标检测,它包含并推广了标准检测、ovd和rec。
2.2 基于语言的目标检测
基于语言的目标检测的两个关键能力是精确定位和紧密的文本图像融合。一些方法使用像BERT这样的语言模型来对齐从(预训练的)检测器中提取的带有标题的区域。大规模预训练模型(如CLIP)出色的zero-shot分类精度引发了人们对扩展定位的兴趣,使用不同的方法,如蒸馏、微调、伪标签或其组合。研究者使用这样的模型作为测试平台,但探索相对于负样本的底层训练数据。
2.3 目标检测中的负样本
负样本的概念对于训练判别模型至关重要。对于目标检测,硬负样本挖掘已被证明对模型训练有益。然而,这些先前的工作旨在寻找硬负样本训练样例,而不是在标签空间中寻找负样本,因为在标准检测中标签空间是固定的。对于基于语言的数据集,潜在负样本的空间非常大,因为对象描述是任意格式的文本。先前的研究用不同的策略研究了负样本对通用视觉语言模型的影响,包括用基于规则或大语言模型来改变单个单词。相比之下,研究者的工作侧重于定位任务,且探索了使用大语言模型生成负样本的更全面的策略,还提出了使用文生图扩散模型生成相应的负样本图像的方法。
图2|在基于语言的目标检测中,检测器接收作为输入的图像和对象的任意格式文本描述(可变长度)列表。对于每个描述,模型预测与描述匹配的对象的边界框©️【深蓝AI】编译
3. 方法
3.1 基于语言的目标检测
任务定义:给定图像和目标描述列表,任务是输出边界框以及每个描述的置信度得分,如图2所示。注意多标签设置,其中一个目标实例可以由多个描述引用,如“人”和“人看书”。还要注意,目标描述可能没有真正引用图像中的任何对象,所需的输出是一组空框。
训练数据:许多基于语言的检测模型使用目标检测和visual grounding数据集的组合来训练它们的模型。这两种类型的数据集都提供图像 I I I和边界框 b l b_l bl来定位单个对象。目标检测数据从固定标签空间 C C C中为每个边界框 b l b_l bl分配一个唯一的类别 c c c,检测数据集中固定标签空间的穷举标记意味着负样本空间。目标的类别没有任何类别的 C \ c C \backslash c C\c。另一方面,grounding数据以任意格式文本格式提供了一种图像描述 t t t,其中单词子集 m l m_l ml与边界框 b l b_l bl相对应。对于grounding数,负样本的空间非常大,因为由于任意形式的文本的组合性,可以找到与 t t t不匹配的尽可能多的文本描述。许多基于语言的检测器只使用 t t t中未被 m l m_l ml引用的单词作为边界框 b l b_l bl的负样本。研究者认为这种选择是次优的,因为这些单词可能指的是完全不同的对象,很容易区分。在下一节中,研究者将解释如何自动生成语义上与原始文本 t t <