文章题目、出处:
Consensus-Aware Visual-Semantic Embedding for Image-Text Matching
ECCV2020
文章地址:https://link.springer.com/chapter/10.1007%2F978-3-030-58586-0_2
代码地址:https://github.com/BruceW91/CVSE
目的:
将常识知识运用到图文匹配中。
利用一个外部语料库学习共识概念表示,表达常识知识,以进一步加强图像和文本之间的语义关系。
结论:
利用共识知识可以精确定位高级语义概念,为图像和文本生成统一的共识概念表示。
背景:
图文匹配在连接视觉和语言中起着核心作用。大多数现有的方法仅仅依靠图文实例对来学习它们的表示,从而利用它们的匹配关系并进行相应的对齐。这些方法只是利用了实例对数据中包含的表面联系,而没有考虑任何外部常识知识,这可能会妨碍他们推理图像和文本之间的高层关系。
利用外部知识来改进数据驱动的神经网络已经引起了极大的兴趣。
方法:
文章提出了一种共识感知的视觉语义嵌入(CVSE)模型,将一致信息,即两种模态之间共享的常识知识,融入到图文匹配中。通过计算图像字幕语料中语义概念之间的统计共现关系,利用构造的概念关联图来产生共识感知概念(CAC)表示。
然后,该算法根据被挖掘的共识知识,学习图像和文本之间的关联和对齐,以及两种模态的实例级表示。
1、利用共识知识来增强概念表示Exploit Consensus Knowledge to Enhance Concept Representations
(1)概念实例化,Concept Instantiation,通过图像字幕语料库挖掘常识知识,从词汇表中删除不常见的词汇,选择出现频率最高的词汇(目标、动作和属性7:2:1),通过glove技术实例化。
(2)概念相关图的建立,Concept Correlation Graph Building,利用实例化概念,检查它们的共现关系,构建相关图,通过常识共现矩阵捕捉相互关系。
(3)共识概念表示,Consensus-Aware Concept Representation.通过图卷积网络(GCN)学习共识表示,引入高阶邻居信息来建模它们之间的依赖关系。
2、共识感知表示学习:Consensus-Aware Representation Learning
(1)实例级图像和文本表示,Instance-level Image and Text Representations,
图像:Fast-RCNN+FC得到区域级视觉特征
文本:bi-directional GRU+FC得到单词级文本特征
将图像和文本特征输入自注意力网络,增强两种模态的实例级表示,
(2) 共识级图像和文本表示,Consensus-level Image and Text Representations,为了合并可用的常识,将实例级的视觉和文本表示作为来自CAC表示的查询输入。考虑到共识知识是从文本统计的角度来探讨的,作者认为利用概念标签作为先验信息来指导共识层次的表征学习和对齐是合理的。
(3) 融合共识级和实例级表示,Fusing Consensus-level and Instance-level Representations,通过简单的加权和进行融合。
Loss:三元排序loss和KL散度
推理:以视觉为例(文搜图)
1)文本到文本的相似性。我们根据文本的相似度进行 k-nearest neighbour (KNN)搜索,得到最相关句子的索引。
2)跨模态相似性。根据文本到图像的相似性,首先定位与给定句子最相关的图像,然后通过 KNN 搜索通过图像到文本的相似性来获取句子的索引。
最后,合并上述两个索引。
结果:
Datasets:Flickr30k MSCOCO
其他:
Knowledge aware semantic concept expansion for image-text matching 利用图像场景图作为外部知识来扩展视觉概念,从而增强了图像的表示。本文利用学到的共识概念表示,在共识层面上统一表示和对齐两种模态。通过对图像和文本的高层语义进行分解,可以对跨模态相似性进行度量,从而进一步提高图像和文本的可解释性