A Sketch Is Worth a Thousand Words:Image Retrieval with Text and Sketch
摘要
工作:输入文本查询图像
idea:提出文本和草图作为输入来进行图像检索
TASK-former,端到端的可训练的图像检索模型,遵循后期融合双编码器的方法。
1 介绍
基于文本的图像检索:从输入文本查询中检索相关图像,主要集中与基于transformer的模型,
评分函数:评估文本描述和图像之间的相似性(通常采用余弦相似度)
演示了草图输入的存在,即使是画得很差的一个,也有助于将检索到的图像集缩小到与草图和文本查询提供的联合描述相匹配的图像集。
本文挑战(困难点):
1.由非艺术家用户绘制的草图存在语义歧义。对于一个非艺术家,它需要努力画一个草图,以充分准确地代表所需的图像检索。
2.少数公开可用的SBIR数据集只包含单个对象的图像[38,47]或描述单个概念的图像[18]。
本文:
输入:草图(可选)+文本输入(两种输入方式相互补充)
训练目标:
1)嵌入损失(学习文本、草图和图像的共享嵌入空间);
2)多标签分类损失(允许模型识别物体);
3)标题生成损失(鼓励学习到的联合嵌入和文本描述之间的强对应)。
训练我们的模型只需要合成生成的草图,而不是人类绘制的草图。这些草图是从目标图像中生成的,并通过适当的增强过程(例如,随机仿射变换,dropout)进一步变换,以提供对输入草图歧义的鲁棒性。我们的模型在训练过程中利用合成生成的草图的能力解决了野外SBIR的第二个挑战-缺乏训练数据。
2 相关工作
基于文本的图像检索:交叉注意力机制来学习文本和图像之间的相似性(早期融合模型)
clip(晚期融合模型)
为了进一步找出草图和给定图像之间的相似性,所提出的[21]方法要求首先通过边缘检测将图像转换为草图。这种转换会导致诸如颜色等信息的丢失。该方法还需要通过边缘检测将图像转换为草图,并且会丢失颜色信息,这是不理想的。
3 方法
具体来说,我们包括两个额外的辅助任务:多标签分类和标题生成。我们的动机是改进学习嵌入空间,从而达到以下目标。
1. 区分正负对;2. 区分不同类别的物体;和3包含足够的信息,以便从图像及其草图的嵌入中重建原始文本标题。
通过CLIP的对称交叉熵、多标签分类目标和标题生成目标来实现这些目标。
3.1 模型和训练
输入:手绘草图+期望目标图像的文本描述生成。
图像编码器:基于VIT
文本编码器:CLIP
将草图和文本编码器的输出嵌入组合在一起,以图像嵌入为目标进行对比学习。
解码器:基于transformer的文本解码器,从草图和图像的嵌入中训练字幕生成器。
3.2损失函数
嵌入损失(Le)为了学习文本、图像和草图的共享嵌入空间,对每批中所有可能的对进行对称交叉熵损失完成,有效地最大化每个匹配对的余弦相似性,最小化不匹配对的余弦相似性。我们将草图作为附加查询添加,并用文本和草图嵌入之和构造的组合嵌入替换CLIP中的文本嵌入。
分类损失(Lc)对于分类,我们认为这是一个多标签分类问题,因为每个图像可以属于多个类别。我们遵循多标签分类的一个常见做法,将问题框架为一系列的许多二元分类问题。非对称多标签分类损失(ASL Loss)
辅助标题生成(Decoder Loss, Ld)对于标题生成,解码器尝试在给定累积嵌入和先前标记的情况下预测最可能的标记。然后通过交叉熵损失(cross entropy loss)将解码的输出令牌与基础真句进行比较。
3.3 草图生成和数据增强
我们进一步在合成草图上应用随机仿射变换作为增强。为了帮助在测试时处理部分草图,我们还随机遮挡了每个草图的部分。我们用白色像素随机替换黑色笔画。
3.4 数据收集
我们手动过滤掉那些根本不代表目标图像的草图(例如,空草图,随机线条,错误对象)。我们唯一的标准是,每个草图必须被识别为描述目标图像(即使只是远程识别)。我们的目标不是收集完整或完美的草图,而是收集可能画得很差的野外草图,可以与文字描述一起使用来解释图像。
由于我们的方法检索带有草图和文本的图像,因此评估我们的方法自然需要一个带注释的数据集,其中每个记录包含手绘草图,人工注释的文本描述和源图像。
4 结果和讨论
表1比较了我们的方法的Recall@{1, 5, 10}和当前基于文本的图像检索的最先进的方法
4.1消融实验
基线:CLIP zero shot
“Feature max”和“Feature concat”分别通过坐标最大化和连接来组合嵌入,并使用完整目标。
Le(消融的TASK-former)。我们开始添加一个草图作为额外的查询,如图2所示。该基线的唯一目标是通过对称交叉熵损失对查询(草图+文本)和图像之间的正确匹配对进行正确分类。
-我们的:Le + Lc(消融TASK-former)。在此基线中,我们在目标中添加了多标签分类损失项。
-我们的:Le + Lc + Ld(烧蚀TASK-former)。在这个基线中,我们添加了分类损失和解码器损失
这是我们用完整目标(Le + Lc + Ld)训练的完整模型。我们使用随机仿射变换增强训练草图和图像,随机删除每个草图的部分(如第3节所述)并训练50个epoch。
4.2对缺失输入的鲁棒性
即使缺少一种输入方式(草图或文本),也能够检索图像。我们通过添加查询退出增强来实现这一点,该增强用空草图或空字符串替换草图或文本。
4.3草图复杂性和检索性能
我们从我们收集的COCO手绘草图中抽取300个草图,并随机抽取笔画,只保留20%到100%。表5显示了每个草图复杂度级别上的召回性能。
4.4 文本复杂度的影响
表3显示了每个文本完备程度的结果检索召回率。我们观察到,与不提供文本查询作为输入(0%)相比,当只包含20%的令牌时,recall@1从0.099增加到0.316。随着更多的标记物的加入,回忆的增加会减少。
5 未来工作和限制
当草图不代表目标图像时,网络会受到影响。在文本编码器上,利用文本增强技术自动增强文本查询使其更加具体也值得进一步关注。