《Dual Attention Networks for Multimodal Reasoning and Matching》

本文介绍了一种用于多模态推理和匹配的双注意力网络(DAN)。通过结合视觉注意力和文本注意力机制,DAN能有效地匹配文本单词与图像区域。文章提出r-DAN和m-DAN模型,分别应用于视觉问答和图文匹配任务,并采用三元组损失进行端到端训练。
摘要由CSDN通过智能技术生成

Dual Attention Networks for Multimodal Reasoning and Matching

CVPR 2017

图文匹配终极问题是整个Text与整个Image的匹配问题,但是这个问题比较难以解决,所以一个最基本的想法就是把这个问题拆分开来,Text由不同的单词构成,Image由不同的区域构成,如果能把Text的单词与Image的区域进行一个匹配,那么这个问题就会变得比较简单。

一个基本的思路就是使用Attention机制,在网络中自动匹配文本单词与图像区域进行匹配。作者引用了两种Attention机制,分别是:Visual Attention以及Text Attention。

一、Introduction

文章亮点:

1.文章提出双重attention机制:Visual Attention以及Text Attention,用triplet loss度量文本和图像之间的相似性。

2.训练出end-to-end模型

3.同时解决了VQA与Image-Text Matching的问题,提出了r-DAN与m-DAN模型

关注图片中“伞”和文本中“color”

关注语义相同的特定区域和单词,如图片中女孩和“girl”的相似度

二、Model

1.文本特征:将输入文本one-hot向量做

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值