《Dual Attention Networks for Multimodal Reasoning and Matching》

最新推荐文章于 2023-07-16 20:44:06 发布

黄鑫huangxin

最新推荐文章于 2023-07-16 20:44:06 发布

阅读量1.7k

点赞数 1

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33373858/article/details/81509748

版权

本文介绍了一种用于多模态推理和匹配的双注意力网络（DAN）。通过结合视觉注意力和文本注意力机制，DAN能有效地匹配文本单词与图像区域。文章提出r-DAN和m-DAN模型，分别应用于视觉问答和图文匹配任务，并采用三元组损失进行端到端训练。

摘要由CSDN通过智能技术生成

Dual Attention Networks for Multimodal Reasoning and Matching

CVPR 2017

图文匹配终极问题是整个Text与整个Image的匹配问题，但是这个问题比较难以解决，所以一个最基本的想法就是把这个问题拆分开来，Text由不同的单词构成，Image由不同的区域构成，如果能把Text的单词与Image的区域进行一个匹配，那么这个问题就会变得比较简单。

一个基本的思路就是使用Attention机制，在网络中自动匹配文本单词与图像区域进行匹配。作者引用了两种Attention机制，分别是：Visual Attention以及Text Attention。

一、Introduction

文章亮点：

1.文章提出双重attention机制：Visual Attention以及Text Attention，用triplet loss度量文本和图像之间的相似性。

2.训练出end-to-end模型

3.同时解决了VQA与Image-Text Matching的问题，提出了r-DAN与m-DAN模型

关注图片中“伞”和文本中“color”

关注语义相同的特定区域和单词，如图片中女孩和“girl”的相似度

二、Model

1.文本特征：将输入文本one-hot向量做

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Dual Attention Networks for Multimodal Reasoning and Matching》

Dual Attention Networks for Multimodal Reasoning and MatchingCVPR 2017图文匹配终极问题是整个Text与整个Image的匹配问题，但是这个问题比较难以解决，所以一个最基本的想法就是把这个问题拆分开来，Text由不同的单词构成，Image由不同的区域构成，如果能把Text的单词与Image的区域进行一个匹配，那么这个问题就会...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。