《读论文系列迭代匹配循环注意记忆 IMRAM》Iterative Matching wit

最新推荐文章于 2024-07-17 21:40:42 发布

沐花月

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量62

点赞数

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/133924240

版权

IMRAM: Iterative Matching with Recurrent Attention Memory
for Cross-Modal Image-Text Retrieval

摘要

问题：采用细粒度的方式探索图像文本的双向检索，平等地考虑所有的语义，统一的对齐他们，不考虑复杂性

idea：提出IMRAM，通过多个对齐步骤捕获图像和文本之间的对应关系。提出IMRAM，通过多个对齐步骤捕获图像和文本之间的对应关系。

1 介绍

粗粒度对应：如Wang等人[26]采用两个分支的深度网络分别将图像和文本映射到嵌入空间中。

问题：粗略地捕捉了模态之间的对应关系，因此无法描绘视觉与语言之间的精细互动。

细粒度对应：Karpathy等[11]提取了每个图像和文本的片段特征(即图像区域和文本词)，并提出了每个片段对之间的密集对齐。

问题：由于图像和文本之间存在较大的异质性差距，现有的基于注意力的模型，例如[13]，可能无法很好地抓住多个区域-词片段对之间的最佳成对关系。

本文：

1.提出了具有循环注意记忆的迭代匹配框架，用于跨模态图像-文本检索，称为IMRAM。

(1)具有跨模态注意单元的迭代匹配方案，以对齐不同模态的片段;迭代匹配方案可以逐步更新跨模态注意核心，积累线索来定位匹配语义。

(2)内存蒸馏单元，动态聚合前期匹配步骤到后期匹配步骤的信息。记忆蒸馏单元可以通过增强跨模态信息的交互来提炼潜在的对应关系。

贡献：

1.首先，我们提出了一种用于跨模态图像-文本检索的迭代匹配方法来处理语义的复杂性。

2.我们提出了一种循环注意记忆的迭代匹配方法，该方法结合了跨模态注意单元和记忆蒸馏单元，以细化图像和文本之间的对应关系。

2 相关工作

:(1)粗粒度匹配方法，通过将整幅图像和全文映射到一个共同的嵌入空间中，在全局范围内挖掘对应关系;

(2)细粒度匹配方法，在细粒度层面探索图像片段和文本片段之间的对应关系

3 方法

3.1跨模态特征表示

图像特征表示

我们使用了预训练的深度CNN，例如Faster R-CNN。具体来说，给定图像I, CNN检测图像区域并为每个图像区域ri提取特征向量fi。我们进一步将fi通过线性投影变换为d维向量vi，如下所示:

其中Wv和bv都是待学习的参数。

文本特征表示

我们提取了文本的词级特征，这可以通过双向GRU作为编码器来完成。

我们在文本S中使用双向GRU从正向和反向两个方向总结信息:

上面代表正向GPU隐藏状态

下面代表反向GPU隐藏状态

3.2 循环注意记忆

循环注意记忆的目的是通过循环地精炼先前片段对齐的知识来对齐嵌入空间中的片段。

它可以看作是一个块，它接受两组特征点，即V和T，并通过一个跨模态注意单元来估计这两组特征点之间的相似性。

查询集X，响应集

记忆蒸馏单元用于精炼注意力结果，以便为下一次对齐提供更多的知识。

跨模态注意单元：为X中的每个特征xi总结Y中的上下文信息。每对(xi, yj)之间使用余弦函数的计算相似度:

我们进一步将相似性得分z归一化为：

内存蒸馏装置(MDU)

为了提炼下一次对齐所需的对齐知识，我们采用了一个内存蒸馏单元，通过动态地将查询特征X与相应的基于X的对齐特征Cx聚合来更新查询特征X:

内存块

我们将跨模态注意单元和内存蒸馏单元整合到一个RAM块中，其公式为:

3.3 循环注意力的迭代匹配

具体来说，给定图像I和文本S，我们分别基于I和S，使用两个独立的RAM块推导出两种迭代匹配策略:

我们迭代地执行RAM()总共K步。

在每一步k，我们可以得到I和S之间的匹配分数:

其中F(ri,S)和F(I, wj)分别定义为基于区域的匹配分数和基于单词的匹配分数。它们的推导如下:

3.4 损失函数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《读论文系列迭代匹配循环注意记忆 IMRAM》Iterative Matching wit

问题：由于图像和文本之间存在较大的异质性差距，现有的基于注意力的模型，例如[13]，可能无法很好地抓住多个区域-词片段对之间的最佳成对关系。细粒度对应：Karpathy等[11]提取了每个图像和文本的片段特征(即图像区域和文本词)，并提出了每个片段对之间的密集对齐。2.我们提出了一种循环注意记忆的迭代匹配方法，该方法结合了跨模态注意单元和记忆蒸馏单元，以细化图像和文本之间的对应关系。问题：采用细粒度的方式探索图像文本的双向检索，平等地考虑所有的语义，统一的对齐他们，不考虑复杂性。
复制链接

扫一扫

沐花月 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

141万+: 周排名

22万+: 总排名

2918: 访问

: 等级

203: 积分

4: 粉丝

11: 获赞

11: 评论

12: 收藏

私信

关注

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
努力搬砖的猴: 能复现吗？
《tensorflow 学习》
CSDN-Ada助手: 恭喜您写完了第16篇博客《tensorflow 学习》！您的持续创作精神令人钦佩。从您的博客标题来看，我猜测您已经对TensorFlow有一定的了解了。接下来，我希望您能够深入探索TensorFlow的更多应用领域，比如深度学习模型的训练与优化、图像识别、自然语言处理等等。当然，这只是一个建议，您可以根据自己的兴趣和需求进行选择。期待您的下一篇博客，谦虚的态度将会让您的创作更加出色！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。