最近阅读了CVPR2020关于image-text matching的三篇文章,前两篇都是对文本图像匹配任务的改进,第三篇则是将文本图像匹配模型用于文本描述任务中。这里,我对三篇文章的主要内容进行一个梳理总结。
备注:由于本人也是第一次接触这个方向,很多术语可能翻译不正确,文章内容理解不正确,内容仅供参考。
1.GSMN
Graph Structured Network for Image-Text Matching
解决问题:
现有的多对多匹配方案,大多忽视了元素属性、同一模态中不同元素间关联,而仅仅学习图像中单个目标与文本中单个单词之间的关联,匹配效果较差。
解决方案(核心创新点):
提出一种基于图结构的新型网络GSMN(Graph structured matching network), 通过图结构,将同一模态下的元素、元素属性、元素间关联构建成结构化的短语,通过学习短语之间的关联获得更精细化的匹配关系。
具体实现简述:
主要包括三个模块:
(1) 单模态特征提取:利用Faster-RCNN以及Core-NLP分别提取图像和文本中的元素特征(包括元素属性以及元素间关联);
(2) 图结构构建:利用1中提取的特征,分别构建图结构。其中,元素、元素属性和元素间关系构成图的结点,若任意结点之间存在依赖关系,则两节点间形成边;
(3) 多模态特征匹配:包括结点级的匹配和结构级的匹配。结构级匹配即利用&#x