《Step-Wise Hierarchical Alignment Network for Image-Text Matching》论文详细梳理

文章信息:该论文是2021年发表在IJCAI上的关于图文匹配的文章

论文详细内容如下表所示:

论文

题目

Step-Wise Hierarchical Alignment Network for Image-Text Matching

创新点

内容

提出了一种分步分层对齐网络(SHAN),该网络通过逐步执行三个对齐步骤来推理图像文本对的相关性。

动机

以前大多数的图文匹配方法很少关注图像和文本中的上下文信息,缺乏了多层次信息,导致匹配错误。而作者提出的方法可以很好的利用上下文信息解决语义内容相似但上下文信息略有不同的错误匹配。

所用方法

结构

简要介绍

SHAN网络在fragment-level alignment和context-level alignment 执行分层跨模态对齐

Step1:使用交叉注意力实现图像区域和文本单词的对齐(L2L)

Step2:基于生成的上下文表示,执行全局到局部的对齐(G2L)

Step3:执行全局到全局跨模态对齐(G2G)

方法详细过程

    图像特征提取:用Faster R-CNN 提取图像显著区域,数量设为36

                                提取单词特征:双向GRU

      1、Fragment-level L2L Alignment:双向交叉注意力

      2、Context-level G2L Alignment:实现了上下文级的全局到局部的对齐。利用上下文信息作为补充线索来理解图文之间的语义关联。通过对原始区域/词特征进行fusion和pooling操作,得到图像和文本的全局表示,并且通过跨模态注意力增强图像和文本的全局表示。

基于生成的视觉和文本的全局上下文表示,我们通过双向交叉注意力机制实现全局-局部对齐。

    3、Context-level G2G Alignment在SHAN模型顶层,从全局的角度进一步对齐图像和文本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值