CVPR2020 文本图像处理方向论文总结（Image-Text Matching）

最新推荐文章于 2025-02-18 11:36:28 发布

Tiger山

最新推荐文章于 2025-02-18 11:36:28 发布

阅读量4.8k

点赞数 4

文章标签： cv 计算机视觉

本文链接：https://blog.csdn.net/qq_43680727/article/details/109922481

版权

本文总结了CVPR2020关于图像文本匹配的三篇论文，包括GSMN的图结构网络、MMCA的跨模态注意力网络以及POS-SCAN的图像描述改进。这些研究通过结合单模态内部关联和多模态元素间关联，提升了匹配和描述的准确性。GSMN利用图结构学习短语匹配，MMCA采用交叉注意力机制，而POS-SCAN通过知识蒸馏增强图像描述的定位准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近阅读了CVPR2020关于image-text matching的三篇文章，前两篇都是对文本图像匹配任务的改进，第三篇则是将文本图像匹配模型用于文本描述任务中。这里，我对三篇文章的主要内容进行一个梳理总结。
备注：由于本人也是第一次接触这个方向，很多术语可能翻译不正确，文章内容理解不正确，内容仅供参考。

1.GSMN
Graph Structured Network for Image-Text Matching

解决问题：
现有的多对多匹配方案，大多忽视了元素属性、同一模态中不同元素间关联，而仅仅学习图像中单个目标与文本中单个单词之间的关联，匹配效果较差。

解决方案（核心创新点）：
提出一种基于图结构的新型网络GSMN(Graph structured matching network), 通过图结构，将同一模态下的元素、元素属性、元素间关联构建成结构化的短语，通过学习短语之间的关联获得更精细化的匹配关系。

具体实现简述：
主要包括三个模块：
(1) 单模态特征提取：利用Faster-RCNN以及Core-NLP分别提取图像和文本中的元素特征（包括元素属性以及元素间关联）；
(2) 图结构构建：利用1中提取的特征，分别构建图结构。其中，元素、元素属性和元素间关系构成图的结点，若任意结点之间存在依赖关系，则两节点间形成边；
(3) 多模态特征匹配：包括结点级的匹配和结构级的匹配。结构级匹配即利用&#x

最低0.47元/天解锁文章