Focus Your Atention: A Bidirectional Focal Atention Network for Image-Text Matching（图文匹配）

最新推荐文章于 2023-06-17 14:21:28 发布

lz739337660

最新推荐文章于 2023-06-17 14:21:28 发布

阅读量760

点赞数

分类专栏：图文匹配

本文链接：https://blog.csdn.net/lz739337660/article/details/115253880

版权

1 篇文章 0 订阅

订阅专栏

Focus Your Atention: A Bidirectional Focal Atention Network for Image-Text Matching（一个双向聚焦注意力网络）
在这里插入图片描述

ABSTRACT

学习图像和文本语义对应的关键挑战：准确地发现和关联图像和文本的共享语义
现存方法：将共享语义表示为所有片段(图像区域或文本单词)的加权组合来实现这一目标，与共享语义相关的片段获得更多关注，反之则较少
存在的问题：尽管相关语义对共享语义的贡献更大，但不相关语义或多或少会干扰共享语义，从而导致关联阶段的语义失调
本文提出了一种新的双向聚焦注意力网络(BFAN)，该网络不仅允许关注相关片段，而且还将所有注意力转移到这些相关片段上（与以前方法不同：它们大多侧重于学习注意力权重，而我们的BFAN侧重于从共享语义中消除不相关的片段）
通过基于模态间关系预分配注意，基于模态内关系识别相关片段，再分配注意来实现焦点注意
聚焦注意力从图像—文本 / 文本—图像

INTRODUCTION

现存问题：这是因为许多片段与共享语义无关，这些片段也被关注，因此共享语义或多或少会受到干扰
我们提出了一种新的双向聚焦注意力网络(BFAN)通过只关注相关的片段而不是所有的片段来解决语义不一致问题（聚焦注意力聚焦于不相关片段去除上）
聚焦注意力：聚焦注意力是通过预先分配注意力、识别相关片段和重新分配注意力来实现的
此外，我们最大限度地将焦点注意力应用于图像-文本和文本-图像方向，以避免对长文本或复杂图像的偏好
贡献：
（1）提出了一种新的双向焦点注意网络，该网络仅通过关注相关片段就能准确学习语义对齐。这是第一个在图文匹配中只关注相关片段而忽略不相关片段的工作
（2）我们将图像-文本和文本-图像匹配整合到一个统一的框架中，避免了对长文本或复杂图像的偏好，最大限度地关联相关的图像-文本对
（3）实验

RELATED WORK

one-to-one方法（全图—文本）：映射到一个潜在空间
many-to-many方法（图像区域—文本单词）：关联由区域和单词组成的共享语义来学习潜在的区域-单词对应（本文提出一种新的焦点注意力，该焦点注意力可以从共享语义中消除不相关的区域/词）

METHOD
在这里插入图片描述

通用注意力框架：
（1）总体目标：最大限度地提高每个局部共享语义的相关性
（2）现存注意力方法寻找共享语义：学习所有片段的注意力分布来寻找共享语义（缺点：并不是所有的片段都支持特定的共享语义，因为它们中的许多与之无关，如果不相关的片段被聚合，共享语义或多或少会受到干扰。更严重的是，它会导致语义不一致，因为不同的语义不能适当地解耦。因此，有必要通过集成与目标语义相关的片段子集来表示共享语义）
我们的聚焦注意力：
（1）不相关片段从共享语义被移除（计算相似性）
（2）Text-to-Image焦点注意力：预先分配注意力（cos余弦） / 识别相关区域 / 重新分配注意力
（3）Image-to-Text焦点注意力：
（4）双向焦点注意力：文本-图像聚焦注意力学会挑选出语义上与每个单词相似的图像区域子集，而图像-文本聚焦注意力学会挑选出语义上与每个图像区域相似的文本单词子集
目标函数：Rank loss（采用一种结构化的排序损失作为目标函数，该函数已被证明能够使相关的图像-文本对的相关性得分最大化，使不相关的文本-图像对的相关性得分最小化）
特征提取：
（1）图像特征： Faster R-CNN + ResNet-101
（2）文本特征： bidirectional GRU

EXPERIMENTS

CONCLUSION
本文提出了一种新的用于图像-文本匹配的双向焦点注意力模型。

关注

专栏目录