Phrase Localization Without Paired Training Examples

论文阅读笔记 -1
ICCV 2019

Phrase Localization Without Paired Training Examples

Josiah Wang Lucia Specia



0. 摘要

在图像中定位短语是图像理解的一个重要部分,在许多需要文本和视觉信息之间映射的应用程序中可能很有用。现有的工作试图从短语-图像区域(region)对应的例子(强监督)或短语-图像对(弱监督)中学习这些映射。我们假设这些成对(paired)的标注是不必要的,并为既不需要训练过程也不需要成对的这类有特殊数据的短语对象定位问题提出了一个方法(First)。 我们的方法虽然简单但是有效:我们使用现成的(off-the-shelf)方法来检测图像中的object、scenes和colors (图像中的基本元素),并探索不同的方法来衡量检测到的视觉元素类别 (the categories of detected visual elements) 和短语内单词 (words in phrases) 之间的语义相似性。在两个著名的短语定位数据集上的实验表明,该方法大大超过了所有弱监督方法,在性能上与强监督方法非常有竞争力,因此可以被视为该任务 (non-paired) 的强基线。我们的方法的非配对性质使得它适用于任何领域,也就是在没有配对短语定位注释可以使用的情况下。

1. 引言

近年来,在图像中目标类别实例的检测和定位方面取得了重大进展,特别是利用深度卷积神经网络(CNN)方法进行目标检测 [7,8,10,19,26,27,28,31]。在大多数工作中,目标检测标签被视为一组固定的类别标签,并训练视觉检测器来定位图像中的每个类别。然而,现实的应用中,人们表达图像中的对象(目标) 是使用一些宽松(free-form)的文本短语表达来替代 (僵硬/严格) 对象类别表达。例如,人们会用一只棕色的毛茸茸的小狗 (文本短语/描述语句) 而不是狗 (类别) 描述某张图片上的狗。短语层次 (Phrase-level) 定位任务的引入是为了满足需要结合视觉对象识别以及自然语言处理类问题的需求。不过,我们所说的 “短语 ”可以包括单个的词、短从句或短语,甚至是完整的句子。早先的所有工作都会在训练阶段使用某些形式的监督:完全监督(短语对象定位中提供了图像中的短语对应的区域,也就是phrase-region对) [2,3,11,12,22,23,29,33,39]或弱监督(提供了phrase-image对,但是没有phrase-region对)[1,34,35,40] (图1)。这种特定的边界框注释,甚至image-phrase对,然而,都是很难和费力获得的。这使得很难将检测扩展到更真实的环境,(检测目标)覆盖 (cover) 一个人可能说出的大量短语。

在本文中,我们解决了一个新任务——可以在没有任何成对样例的情况下在图像中实现对短语的定位,也就是模型在训练时既不需要访问短语图像对,也不需要访问它们在图像中的具体定位(甚至可能不需要“训练”阶段)。据我们所知,在此之前没有工作在没有“对”注释(image-level或者object-level)的情况下进行短语定位的这类挑战性设置。我们认为这中 ”无配对“ 设置更好的反映了人在进行图像中物体定位时——并非是通过记忆配对的例子,而是(配有)通过从更一般的来源和任务(例如,识别概念或者属性)收集来的先验知识来处理更加具体/专业的任务(短语定位)。因此,该设置作为短语定位任务的有力基线,即,它展示了即使系统/模型在没有看到/学习过任何此类示例(成对数据)的情况下,依旧可以执行短语定位的程度这可以进一步洞悉如何在没有成对示例的情况下,以知情的方式更好地利用成对示例进行短语定位 (此处不是很明白)。该方法还可扩展到任何领域以及任意数量的自然语言和图像对。

本文的主要贡献是建立了一个短语定位模型,该模型没有在短语定位注释上训练过(第3节)。相反,它利用现成的资源、工具和外部知识。我们的模型具有简单以及可解释的优点,可以作为新的非配对设置情况下问题/任务的有力基线。我们在现有的两个短语定位数据集上对该模型进行了深入分析(第4节),使用不同的检测器和检测器的组合、用于概念选择的语义相似度度量以及组合这些组件的策略来定位在此之前未见的短语

我们在两个现有的短语定位数据集上的实验表明,我们的方法在没有配对实例的情况下比现有的弱监督模型有很大的提高,并且与在训练时使用大量注释短语定位实例和特定领域工具的完全监督方法相当具有一定的竞争力。结果表明,对于此类数据集,对于解决短语定位任务使用短语定位注释进行训练可能并非是必要的或者并非是最佳选择。

3. 模型

在这里插入图片描述

任务设置。 在训练阶段,给定一个图像 I I I和一个查询短语 q q q,短语定位任务的目的是去生成一个边界盒子 b b b b b b中包含了 q q q中提及的图像中的视觉实例。不同于传统的监督设置,我们提出的无配对设置对于配对标注的训练示例( q q q, I I I)或者( q q q, I I I, b b b)在训练或者模型构建时是不可见(不可用)的。替代的是,允许模型使用并非具体于短语定位任务的外部资源,例如,通用的视觉对象检测器,通用的文本语料库,知识库和词典,以及不具备短语标注的通用数据集的图像。我们注意到视觉检测器可能是用有监督的方式训练(例如,COCO或者ImageNet),但是对于短语定位任务并没有基于短语标签的监督。类似的,从通用语料库中训练得到的语言模型可能包含来自测试集的短语,只要它们独立于图像就行可以使用。

我们的模型基于Yeh等人[35]的方法。但是,相比于他们的方法,我们没有进行短语定位任务时没有明显的/明确的训练步骤或者短语定位注释。(i)我们引入了从一般语料库中衍生处的语义相似度量/措施/方法而不是从对齐的训练样例中。(ii)探索了一种并非专门为短语低挡位任务训练的离线视觉检测器。(iii)提出从检测输出执行短语定位的不同策略,包含一个新的基于一致性的方法,该方法结合了多个检测器的输出。

在测试时,我们的模型用三个步骤来完成短语定位任务(图2)。第一步——实例检测——它使用不同视觉检测器的组合来预测包围盒子(3.1节)。第二步——概念选择——该模型计算了前一步检测处的实例的概念标签与查询短语之间的语义相似度,并选择最相关的实例(们)(3.2节)。第三步——定位——模型从第二步得到的候选实例的包围盒中为查询短语预测包围盒(3.3节)。

1. 实例检测

我们无配对短语定位模型的第一阶段依赖于不同的视觉对象检测器。我们探究了孤立的使用检测器并且将他们的输出结合起来(输出的概念并非是都是相互排斥的,也就是将不会相互排斥的这些概念联合起来)。关键思想是利用来自多个检测器的冗余结果(理解:联合的多个输出结果)来处理缺失的检测(实例)以及增强跨多个检测器组而检测得到的对象实例的重要性(理解:某个实例被多个检测器检测出来,而此时联合了不同检测器之间的结果,势必会使得该检测结果的重要性被增强,如此这个被反复检测出的对象实例就会比未被所有检测器“看”到的对象实例重要性更高)。我们的实验如下:

1 1 1. tfcoco:使用 TensorFlow Object Detection API[13],置信度阈值为0.1,训练了一个Faster-RCNN[28]检测器,用于从MS COCO[18]中检测80个类别。

2 2 2. tfcoco20tfcoco的一个子集,该子集我们只考虑了从PASCAL VOC[5]中的20个类别。这使得与前期工作的比较成为可能。

3 3 3. tfoid:另一个Faster-RCNN,训练用来在Open Images Dataset(V2)[16]中金策545个对象类别,其依旧使用的是 TensorFlow Object Detection API以及置信度阈值为0.1。

4 4 4. places365:为了365个场景(scene)类别,在Places2 dataset[41]上训练了一个 WideResNet18的分类器。我们假设场景通常是覆盖了完整图像的,当分类置信度至少为0.1时,将会返回整幅图片作为包围盒的定位结果。我们只保留了前20的预测类别。

5 5 5. yolo9000:在MS COCO和ILSVRC[30]上以弱监督的方式训练的YOLO9000生成了9413个类别。我们使用的是YOLOv2。

6 6 6. colour:一种用于11个基本英语颜色词的颜色检测器,从真实世界图像中学习到的RGB像素的颜色词的后面衍生出来。在0.3处对后验值进行阈值化处理后,我们执行连接组件标记( 8连通 ),并为每个标记的连接组件生成包围盒。包围盒的面积被限制为至少625像素。

检测器不同的精度和数目以及所覆盖类别的类型各不相同。值得注意的是,以上的检测器都没有直接使用我们测试数据集的关于图像或者短语的定位注释。这将强调我们的短语定位模型可以推广到不可观测数据的能力。更多的检测器有可能被用来进一步提高召回率,但这里使用的检测器足以表明所提方法非常有前途。

2. 概念的选择

我们的模型在第二个阶段为待定位的查询短语和3.1节中检测器的输出建立了桥梁。它计算了每个短语和检测器输出的概念标签的语义相似度。直觉是,与查询语句中的一个词或者短语非常相似或者是非常相关的来自检测实例的概念,这个实例就更有可能是目标对象。例如,dancer(舞者)与类别person(人)可能会有很高的相似性或者相关。因此,没有对dancer的检测器存在,模型也可以推断出在图像中被检测出的类别为person的对象可能是查询短语中提及到的dancer。
我们将查询 q q q以及概念标签 c c c表示为300维的CBOW word2vec embeddings[21]。包含多词的短语表示为短语内每个词的词向量之和并使用 L 2 − n o r m 3 L_2-norm^3 L2norm3归一化为单位(unit)向量。查询中所有的单词以及概念标签(除了yolo9000)都是小写的。而对于yolo9000,每个类别都是WordNet[6] synset(同义词集合?)。因此,我们将每个类别词用该同义词集合词向量之和来表示,并归一化。词汇表外的单词通过匹配单词的大小写变体来处理(Scotch whiskey to scotch whiskey)。如果不这样,我们会尝试像以前一样匹配包含多个词的短语。

我们注意到查询短语中有许多拼写错误。因此,该模型利用另外一个外部资源来来对词汇表外的单词进行自动拼写更正。该模型从word2vec的词汇表中找到候选的替换词,并在用于训练embedding的语料库中选择出现频率最高的替换词。该模型在拼写纠正的情况下获得了略高的正确率,因此我们只报告拼写纠正后的查询结果。

我们对聚合查询短语中的词用了两种方法:将词向量求和作为一个向量并归一化为单位向量(w2v-avg),或者单独表示每个词(w2v)并且只使用一个词定位(3.3节)。

我们使用余弦相似度作为查询 q q q与概念标签 c c c的语义相似度量 S ( q , c ) S(q,c) S(q,c)。此阶段根据检测出的候选包围盒以及查询短语相似性输出一个排序列表。

3. 定位

在最后阶段,我们提出的模型预测了给定查询短语来自于第3.2节候选检测的排序列表的一个包围框。这是通过选择或聚合语义上与查询最相似的候选实例来实现的。

最简单的定位方法是从检测出的候选项中选择具有与查询短语最相似的概念标签的对象实例。当检测到的很多对象实例具有相似的概念标签时,我们用不同的tie-breaking策略进行实验:(i)选择一个随机实例;(ii)选择具有最大边界框的实例;(3)选择类别预测置信度最高的实例;(iv)生成一个包含所有实例的最小边界框(union 联合)。后者对于处理引用对象的多个实例的查询可能很有用(例如,从三个独立person检测器中定位三个人)。

除了简单的启发式方法外,我们还提出了一种新的利用共识的tie-breaking的方法。其主要思想是,检测器可以对最有可能的定位结果进行投票,利用检测器之间的冗余和短语(蓝衬衫)的不同方面。我们考虑top-K概念的对象实例的语义相似度高于某个相似阈值(我们使用K=5和阈值0.6)。对于每个概念 c i c_i ci,一个图像上像素级别的热图, M c i ( I ) M_{c_i}(I) Mci(I)的生成方法是将与概念的任何边界框实例重叠的像素设置为1,将与该概念的任何边界框实例重叠的像素设置为0。通过对每个概念的热图求和,我们生成一个组合热图ˆM(I),每个热图由第3.2节中的语义相似度得分S(q, c)加权:

M ^ ( I ) = ∑ i = 1 K S ( q , c ) M c i ( I ) \hat M(I) = \sum ^K _{i=1} S(q,c)M_{c_i} (I) M^(I)=i=1KS(q,c)Mci(I)
短语定位是通过选择投票选出值最高的像素的包围框实例,并选择语义相似度最高的框作为预测定位来完成的。在有多个得分最高的框的情况下,模型预测一个包含所有这些框的最小边界框。

我们比较使用单一的组合词嵌入来表示短语(w2v-avg)或使用单个词嵌入来表示短语(w2v)。对于后者,我们可以选择与任何检测到的概念语义相似度最高的词(w2v-max)。从直观上看,我们只考虑短语中用于本地化的一个单词,这个单词与检测到的概念具有最高的相似性。或者,我们可以使用本地化的最后一个词(w2v-last),假设最后一个词是标题词。当词汇表中没有找到短语中的单词时,我们默认本地化到整个图像。


笔记

领域:

计算机视觉 – 图像短语定位
图像短语定位 ∈ \in 视觉/图像理解 (的重要分支)

现有工作集中在以下两种:

region-sentence/phrase 强监督
Image-sentence/phrase 弱监督

本工作目的

  1. 证明 – 成对标注非必要
  2. 提出一个无需成对标注特殊数据以及训练过程的模型(作为基线)

任务详细介绍:

与目标检测的区别

目标检测 – 固化的类别标签,比如狗,帽子等
短语定位 – 宽松的类别标签,比如毛茸茸的小狗,嵌着蓝色小星星的帽子等

任务描述

没有任何成对样例的情况下,在图像中实现对短语的定位。

模型在训练时,
1)不需要访问短语图像对
2)不需要访问它们在图像中的具体定位
3)甚至可能不需要“训练”阶段(非必要)

任务优势

更加符合人们学习的行为

例如,认识草药的过程,人一般可能是通过书上对草药外貌、特性、药效等概念性的理论或者一些比较固化的图片来进一步细化认知。而不是,为了了解某个草药,都需要真切的见识到真品,来一对一的认识。或者可以说,人通过一系列的先验知识,来认知的。

当前任务,通过从更一般的来源和任务(例如,识别概念或者属性)收集来的先验知识,也就是一系列的大的数据库而非具体样例,有了大量的数据知识存储后,再来处理更加具体/专业的任务(短语定位)。

该工作的贡献

  1. 建立了一个短语定位模型
    1)模型没有在短语定位注释上训练过。
    2)利用现成的资源、工具和外部知识。
  2. 模型具有简单以及可解释的优点,可以作为新的非配对设置情况下问题/任务的有力基线。

模型

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值