论文-《MUREL: Multimodal Relational Reasoning for Visual Question Answering Remi》笔记

重点翻译拓展

摘要:

        如今在涉及真是图像的VQA任务中,多模态注意力网络时性能最好的,但是这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。因此,我们提出了MuRel,一个能在真实图像中学习端到端推理的多模态关系网络。我们的贡献主要有两个:一是引入了MuRel单元,一种通过丰富的向量表示来对问题和图像区域间的交互进行自动推理,和对成对结合区域关系进行建模的结构;二是合并MuRel单元到MuRel网络,,该网络逐渐细化了图像和文本的交互。

背景:

1.深度学习最近处理问题:

        最近,深度学习开始处理一些复杂的视觉推理问题,例如:关系检测(relationship detection)、目标识别(objection recognition)、多模态检索(multimodal retrieval)、抽象推理(abstract reasoning)、视觉因果(visual causality)、是绝对话(visual dialog)。

2.视觉推理:

        关于视觉推理这个研究主要是通过CLEVR数据集,这个数据集提供了一些需要推理的简单问题。其中处理CLEVR数据集比较好的模型有FiLM,MAC network。

3.真实数据的VQA:

        VQA研究最重要的一部分就是对两个空间向量的高层次关系进行表示,在目前的多模态融合机制里,最受欢迎的

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值