文章信息:该论文是2021年发表在IJCAI上的关于图文匹配的文章
论文详细内容如下表所示:
论文 题目 | Step-Wise Hierarchical Alignment Network for Image-Text Matching | |
创新点 | 内容 | 提出了一种分步分层对齐网络(SHAN),该网络通过逐步执行三个对齐步骤来推理图像文本对的相关性。 |
动机 | 以前大多数的图文匹配方法很少关注图像和文本中的上下文信息,缺乏了多层次信息,导致匹配错误。而作者提出的方法可以很好的利用上下文信息解决语义内容相似但上下文信息略有不同的错误匹配。 | |
所用方法 | 网 络 结构 | |
简要介绍 | SHAN网络在fragment-level alignment和context-level alignment 执行分层跨模态对齐 Step1:使用交叉注意力实现图像区域和文本单词的对齐(L2L) Step2:基于生成的上下文表示,执行全局到局部的对齐(G2L) Step3:执行全局到全局跨模态对齐(G2G) | |
方法详细过程 | 图像特征提取:用Faster R-CNN 提取图像显著区域,数量设为36 提取单词特征:双向GRU 1、Fragment-level L2L Alignment:双向交叉注意力 2、Context-level G2L Alignment:实现了上下文级的全局到局部的对齐。利用上下文信息作为补充线索来理解图文之间的语义关联。通过对原始区域/词特征进行fusion和pooling操作,得到图像和文本的全局表示,并且通过跨模态注意力增强图像和文本的全局表示。 基于生成的视觉和文本的全局上下文表示,我们通过双向交叉注意力机制实现全局-局部对齐。 3、Context-level G2G Alignment:在SHAN模型顶层,从全局的角度进一步对齐图像和文本。 |