背景 本文提出的图文匹配模型名为ADAPT。ADAPT被设计用来:利用B模态的实例来调整A模态的实例的中间表示。这种自适应的调整能够过滤和增强模态间的重要信息,增强模型对重要的图/文细节的关注,从而引导向量表示的生成。(个人理解,本篇文章的创新点,设计了一种自适应的GA方式) 方法 整个流程是对称的,这里以T2I为例,最终得到的是带有文本注意的视觉特征表示。执行步骤,可以简单理解为先做一个GA,再做一个SA。在处理视觉模态时,文本模态的特征表示 c c c投影得到两个指示向量