VQA
bxg1065283526
希望现在开始为时不晚,努力一定会有收货
展开
-
Visual Question Answering: Datasets, Algorithms, and Future Challenges文章翻译
Abstract视觉问答(VQA)是计算机视觉和自然语言处理领域的一个新问题,引起了深度学习、计算机视觉和自然语言处理领域的极大兴趣。在VQA,一种算法需要回答基于文本的图像问题。自2014年第一个VQA数据集发布以来,已经发布了更多数据集,并提出了许多算法。在这篇综述中,我们从问题表述、现有数据集、评估指标和算法等方面批判性地考察了VQA的现状。特别是,我们讨论了当前数据集在正确训练和评估V...翻译 2020-05-08 22:09:02 · 1812 阅读 · 0 评论 -
VQA中的attention机制
近年来,attention机制在深度学习领域受到了越来越多的关注。从数学的形式上看,attention机制只是简单地对输入项根据重要程度分配不同的加权参数,但这一机制模拟了人脑的认知模式,即根据实际需求而将有限的注意力聚焦于事物的关键部分,从而大大加强了神经网络的理解能力。由于VQA涉及对图像和文字的深度理解,attention机制在VQA领域自然成了一大利器。于是这周就将attention机制...原创 2020-04-16 00:41:26 · 3147 阅读 · 1 评论 -
Object-Difference Attention: A Simple Relational Attention for Visual Question Answering
Abstract注意分布根据注意问题的重要性在图像中的对象(例如图像区域或边界框)上具有不同的权重分布,它在注意机制中起着至关重要的作用。现有的大多数工作都集中在融合图像特征和文本特征来计算注意力分布的情况下,而不需要在不同图像对象之间进行比较。作为关注的主要属性,选择性取决于不同对象之间的比较。比较提供了更多信息,可以更好地分配注意力。作者提出了一种对象差异注意(ODA),该方法通过在手头问...原创 2020-04-12 23:15:40 · 780 阅读 · 0 评论 -
Focal Visual-Text Attention for Visual Question Answering论文笔记
Abstract神经网络对语言和视觉的最新见解已经成功地应用于简单的单图像视觉问题回答。然而,为了解决诸如个人照片等多媒体收藏中的现实问题,我们必须用一系列照片或视频来观察整个收藏。当回答来自大量集合的问题时,一个自然的问题是识别支持答案的片段。在本文中,我们描述了一种新的神经网络,称为焦点视觉文本注意网络(FVTA),用于视觉问题回答中的集体推理,其中视觉和文本序列信息,例如图像和文本元数据...原创 2020-03-31 18:18:57 · 798 阅读 · 0 评论 -
Dual Attention Networks for Multimodal Reasoning and Matching
Abstract作者提出了一个网络DAN,同时视觉注意力和文本注意力,利用注意力能够关注图片中的某一区域和句子中的某一个单词,推理模型允许在协作推理过程中,视觉和文本的注意力相互引导。此外,该匹配模型利用两种注意机制,通过关注图像和句子的共同语义来估计它们之间的相似度。1. Introduction...原创 2020-03-29 17:08:13 · 786 阅读 · 0 评论 -
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering论文笔记
Abstract基于双线性池的模型已经被证明优于传统的VQA线性模型,但是它们的高维表示和高计算复杂度可能严重限制它们在实践中的适用性。对于多模态特征融合,作者提出了一种多模态分解双线性(MFB)汇集方法,以高效和有效地组合多模态特征,这使得VQA的性能优于其他双线性汇集方法。对于细粒度的图像和问题表示,作者提出了一种“共同关注”机制,使用端到端的深层网络架构来共同学习图像和问题关注。在一个新...原创 2020-03-25 21:05:23 · 2230 阅读 · 0 评论 -
Multi-level Attention Networks for Visual Question Answering论文笔记
Abstract现有方法主要从抽象的低层视觉特征推断答案,而忽略了高层图像语义的建模和丰富的区域空间上下文。为了解决这一问题,作者提出了一个多层次的视觉问题回答注意网络,该网络既可以通过语义注意减少语义鸿沟,并有利于通过视觉注意进行细粒度的空间推理。首先,从卷积神经网络的高层语义中生成语义概念,并选择那些与问题相关的概念作为语义注意。其次,通过双向递归神经网络将CNN的基于区域的中层输出编码成...原创 2020-03-23 13:20:25 · 904 阅读 · 0 评论 -
Attention Is All Your Need论文笔记
Abstract主要的序列转导模型基于包括编码器和解码器的复杂递归或卷积神经网络。表现最好的模型也通过注意机制连接编码器和解码器。作者提出了一个新的简单的网络结构,变压器,完全基于注意机制,完全免除了递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上是优越的,同时具有更好的并行性,并且需要更少的训练时间。1 Introduction针对nlp里的机器翻译问题,提出了一种被称为...原创 2020-03-21 22:30:39 · 340 阅读 · 0 评论 -
Hierarchical Question-Image Co-Attention for Visual Question Answering论文笔记
1.Abstract作者认为之前的工作集中在寻找图片中的重点区域,但是也应该寻找问题中的重要的单词,所以提出了共同注意力(co-attention),目的是共同的推理图片和问题的注意力。2.Introduction作者提出的共同注意力具有以下两种特征:Co-Attention 与之前的工作不同,作者的提出的模型是对称的,通过图片表示可以引导产生问题的注意力,问题表示可以引导产生图片...原创 2020-03-19 00:23:28 · 848 阅读 · 0 评论 -
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention论文笔记
Abstract视觉问答(VQA)的关键解决方案在于如何融合从输入图像和问题中提取的视觉和语言特征。我们表明,一种能够在两种模式之间实现密集双向交互的注意机制有助于提高答案预测的准确性。具体来说,我们提出了一个在视觉和语言表达之间完全对称的简单体系结构,其中每个问题词出现在图像区域,每个图像区域出现在问题词上。它可以被堆叠以形成图像-问题对之间的多步骤交互的层次。我们通过实验表明,所提出的架构...原创 2020-03-17 22:43:45 · 743 阅读 · 1 评论 -
Deep Modular Co-Attention Networks for Visual Question Answering读书笔记
Abstract视觉问答(VQA)要求对图像的视觉内容和问题的文本内容都具有细粒度的同时理解。因此,设计有效的“共同注意”模型以将问题中的关键词与图像中的关键对象相关联是VQA性能的关键。到目前为止,通过使用浅层模型已成功完成了对注意力集中学习的大多数成功尝试,而深层共同注意模型相对于浅层模型几乎没有改善。在本文中,我们提出了一个深度的模块化协同注意网络(MCAN),该网络由深度级联的模块化协...原创 2020-03-13 17:39:50 · 1636 阅读 · 1 评论