CVPR2020 文本图像处理方向论文总结(Image-Text Matching)

最近阅读了CVPR2020关于image-text matching的三篇文章,前两篇都是对文本图像匹配任务的改进,第三篇则是将文本图像匹配模型用于文本描述任务中。这里,我对三篇文章的主要内容进行一个梳理总结。
备注:由于本人也是第一次接触这个方向,很多术语可能翻译不正确,文章内容理解不正确,内容仅供参考。

1.GSMN
Graph Structured Network for Image-Text Matching

解决问题:
现有的多对多匹配方案,大多忽视了元素属性、同一模态中不同元素间关联,而仅仅学习图像中单个目标与文本中单个单词之间的关联,匹配效果较差。

解决方案(核心创新点):
提出一种基于图结构的新型网络GSMN(Graph structured matching network), 通过图结构,将同一模态下的元素、元素属性、元素间关联构建成结构化的短语,通过学习短语之间的关联获得更精细化的匹配关系。

具体实现简述:
主要包括三个模块:
(1) 单模态特征提取:利用Faster-RCNN以及Core-NLP分别提取图像和文本中的元素特征(包括元素属性以及元素间关联);
(2) 图结构构建:利用1中提取的特征,分别构建图结构。其中,元素、元素属性和元素间关系构成图的结点,若任意结点之间存在依赖关系,则两节点间形成边;
(3) 多模态特征匹配:包括结点级的匹配和结构级的匹配。结构级匹配即利用&#x

  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值