《读论文系列图文检索双编码器架构 VisualSparta》 An Embarrassingly Simple Approach

沐花月

已于 2023-10-17 18:48:50 修改

阅读量322

点赞数

分类专栏： nlp论文阅读文章标签：深度学习论文阅读人工智能

于 2023-10-16 12:40:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/133854946

版权

nlp论文阅读专栏收录该内容

4 篇文章

订阅专栏

VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words使用加权词袋进行大规模文本到图像搜索的一种令人尴尬的简单方法

摘要

本文工作：文本到图像的搜索

本文：我们提出了VisualSparta，这是一种新颖的(Visualtext Sparse Transformer Matching)模型，效果好

1 介绍

现有的文本到图像检索模型可以大致分为两类:查询不可知模型和查询依赖模型。
双编码器架构是一种常见的查询无关模型，它使用两个编码器对查询和图像进行编码，然后通过内积计算相似性。（由于图像和文本是两个差异很大的模态，所以很自然地会想到先将图像和文本分别进行编码，然后再把它们的特征映射到一个共同的语义空间中，计算图像和文本的相似度。）

早期的图文检索模型基本都是双流结构的模型，他们主要的改进集中在：如何将2个模态特征映射到同一个语义空间对齐，计算图文相似度。）

转换器架构：每对文本和图像通过连接并传递到一个网络中进行编码，而不是由两个单独的编码器进行编码。（随着Transformer在图像领域的广泛应用和预训练大模型的兴起，开始有人提出，是不是可以直接采用同一个encoder编码两种模态，直接学习将它们对齐到一个语义空间里，而不需要先分别编码图文再做对齐。如何学到一个更好的视觉-文本联合特征）

本文贡献：

（1）提出了一种新的检索模型，该模型在MSCOCO和Flickr 30K两个基准数据集上获得了最新的检索结果。

（2）加权词袋是跨模态检索的一种有效表示，可以有效地索引到倒排索引中，从而实现快速检索。

（3）详细的分析和烧蚀研究表明了该方法的优势和有趣的性质，为未来的研究方向提供了亮点。

2 相关工作

2.1双编码器匹配网络

使用双编码器对图像和文本进行编码

2.2预训练语言模型

3 VisualSparta Retriever

介绍VisualSparta 检索器。

（1）召回性能：学习查询和图像区域之间的细粒度关系

（2）速度性能：查询嵌入是非上下文化的

3.1模型结构

3.1.1文本查询表示

以前的方法：将查询的句子传到bi-RNN

本文方法：删除查询的顺序信息，使用预训练的标记嵌入来表示每个标记。也就是说每个令牌独立表示与本文上下文无关。

wi代表查询的第i个令牌

3.1.2视觉表示

我们使用来自三个来源的信息来表示它:区域视觉特征、区域位置特征和带有属性的标签特征。

Regional visual features and location features（区域视觉特征和区域位置特征）

给定图像v，通过fasterRCNN得到n各区域视觉特征vi及其对应的位置特征li。

将区域视觉特征vi和区域位置特征li连接起来得到Ei

Eimage代表单个图像的表示

带有属性的标签特征

使用预训练的词嵌入对Faster-RCNN模型得到的预测对象和相应属性进行编码

k表示属性标记化后的标记数

Etok、Epos和Eseg分别表示令牌嵌入、位置嵌入和分割嵌入

因此，图像可以由线性变换后的图像特征和标签特征拼接而成。

W和b是可训练的线性组合全职和偏置，将嵌入的a传送到Transformer编码器Timage，最后得到隐藏层输出：

3.1.3 得分函数

其中Eq.10捕获每个图像区域和每个查询词标记之间的片段级交互;

Eq.11通过ReLU和可训练偏差的组合产生稀疏嵌入输出；

Eq.12总结分数，通过日志操作对分数进行汇总，防止分数过大。

3.2检索训练

使用交叉熵损失来训练

‘试图在每个文本查询q的真实图像v +和不相关/随机图像v -之间做出决定。

3.3 高校索引和推理

VisualSpatra结构模型适合实时推理，由于查询嵌入是非上下文化的，可以计算每个查询wi和每个图形v之间的关系。

在离线索引期间，对于每个图像v，我们首先计算其区域与词汇表中的每个查询词之间的片段级交互，与Eq. 10相同。然后，我们缓存计算出的排名分数:

4 实验

4.1数据集

使用MSCOCO1和Flickr30K2个数据集进行文本到图像检索任务的训练和评估。

4.2评价指标

召回率

4.3实施细节

4.4实验结果

4.4.1召回率表现

MSCOCO (1K/5K)和Flickr30K数据集文本到图像检索结果的详细比较：

4.4.2速度表现

5 模型分析

5.1准确率灵活性法则

表3比较了MSCOCO 1K和5K分割在不同选择下的召回率和速度

5.2图像编码器的消融实验

为了进行性能比较，从图像编码器中删除了不同的组件。从表中，我们观察到删除属性特征(第1行)或带有属性的标签特征(第2行)只会对性能造成很小的影响。然而，当删除视觉特征并仅使用带有属性特征的标签进行图像表示时(第3行)，似乎模型性能下降了很多，其中Recall@1得分从68.7%下降到49.1%(- 19.6%)

深度视觉特征对VisualSparta模型结构的贡献最大，

博客等级

码龄4年

19
原创

13
点赞

18
收藏

7
粉丝

关注

私信

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列图文检索计算各个样本相似性 TGDT》Efficient Token-Guided Image-Text Retrieval
xu_pf: 你好，我想请教一下，请问如果不同图像存在相同描述，而且还是大量重复描述，而基于index实例级索引进行计算recall，而不通过描述是否相同（即描述完全相同视为命中）哪个更合适呢？对于没有label的低质量数据集用index来判别是不是存在问题呢？
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
Spareribsk: 同问，兄弟，你复现了吗
《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。