多模态学习
跨模态检索、VQA
薛定猫的谔w
哈尔滨工业大学(深圳) 计算机技术
展开
-
多模态融合(二)Deep Multimodal Neural Architecture Search
本篇论文的工作也是来自杭州电子科技大学。在上一篇论文MCAN的基础上,对多模态特征的融合方式作进一步讨论。该篇文章已被ACM MM2020接收。摘要设计有效的神经网络结构是深度多模态学习的关键。现有的工作大多将关注点聚焦在单一任务上并手动进行网络结构的设计,这样的获得的模型均是任务特定的并且在多个任务间泛化能力弱。本文提出一种通用的深度多模态神经结构搜索框架(deep multimodal neural architecture search framework,MMnas) 用于多模态的多任务学习。在原创 2020-11-15 15:34:55 · 1642 阅读 · 0 评论 -
多模态融合(三)MFAS: Multimodal Fusion Architecture Search
摘要本篇文章以多模态分类任务为契机,提出了一个新颖和通用的搜索空间,来找寻最优的多模态融合架构。为了在给定的搜索空间中为给定数据集找到最优的架构,本文使用了一种针对具体问题并基于序列模型的高效搜索方法。在一个toy dataset和另外两个真实的多模态数据集上的实验结果证明了将多模态融合作为神经结构搜索问题的价值。引言作者指出,通常多模态特征的融合是在最深层,也就是在文献中称为后期融合(late fusion),这在一些多模态任务[40]上取得一定的成功。然而,在各自最深层的特征上融合模态不一定是解决原创 2020-11-15 16:53:15 · 2385 阅读 · 1 评论 -
多模态融合(五)Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering
背景本篇论文的工作来自香港中文大学。研究内容是VQA摘要学习有效地融合多模态特征是视觉问题回答的核心。本文提出了一种动态融合模态内、模态间信息流,即在视觉模态和语言模态之间传递动态信息的新方法。作者提到,在此之前,处理VQA问题所使用的方法基本分为两大派,模态内的关系学习或者模态间的关系学习。然而,在解决VQA问题的统一框架中,模态间和模态内的关系从来没有被联合研究过。本文认为,对于VQA问题,每个模态内的模态关系与模态间的关系是互补的,而现有的VQA方法大多忽略了这一点。方法Intermoda原创 2020-11-15 20:37:50 · 1737 阅读 · 0 评论 -
多模态融合(一)Deep Modular Co-Attention Networks for Visual Question Answering
摘要在VQA任务中,设计一个有效的Co-attention模块来将问题中的关键词和图像中的关键区域联系起来是解决问题的核心。此前,大多数成功的联合注意力学习尝试都是通过使用浅层模型来实现的,深度联合注意模型与浅层模型相比几乎没有改善。(浅层模型,模态之间的交互不够充分)本文提出Modular Co-Attention Network (MCAN),该网络由一系列Modular Co-Attention (MCA) layers级联组成。每个MCA结构包含图像模态、文本模态的自注意力(self-attent原创 2020-11-15 11:17:01 · 4796 阅读 · 0 评论 -
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
背景本篇论文研究的内容是视觉对话(Visual Dialogue,VD)系统。在这里我们主要学习它的多模态特征的交互和融合方式。摘要视觉对话系统是一个具有长上下文(问答历史记录)的多模态任务,同时每次作答也需要抽取、组合来自多模态数据的特征而后进行推理来得到答案。在视觉对话系统中,传统的基于最大似然估计的方法只从积极的回答中学习,而忽略了消极的消极,因此倾向于产生安全的或通用的回答(即回答不会出错,但也没有什么有价值信息)。为了解决这个问题,我们提出了一种全新的训练模式并结合加权似然估计的新方法。在此原创 2020-11-15 19:33:38 · 533 阅读 · 0 评论 -
image-text matching(一)Context-Aware Multi-View Summarization Network for Image-Text Matching
背景这篇文章是山东大学聂礼强组的工作,被ACM MM2020接收动机作者提到,图文匹配任务中,一张图像有多句与之同语义的captions,每句caption可以视为是从不同的角度来对图像内容进行刻画(在描述图像中不同的区域),如下图的例子。这样一来,图像特征如何与多个来自不同视角的captions进行对齐是任务难点。方法本文提出名为CAMERA的网络模型,包含一个自适应门控self-attention模块AGSA来自适应地捕捉模态内上下文信息流、然后是一个Multi-View Summariza原创 2020-11-21 17:41:16 · 1423 阅读 · 0 评论