AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗

动机
  1. 视频问答(VideoQA)的推理通常涉及两个领域的异构数据,即时空视频内容和语言文字序列。现有的方法主要集中在多模态的表示和融合方面,在对齐和推理方面的研究还很少。

    近年来,多模态问答技术取得了显著进展,其中最具代表性的是视觉问答(VQA)和视频问答(VideoQA),其中VideoQA将VQA扩展到视频领域,对时空理解和推理提出了更高的要求。视频问答(VideoQA)旨在自动推理视频和文本问题的正确答案,近年来受到越来越多的关注。VideoQA的推理通常涉及两个领域的异构数据,即时空视频内容和语言文字序列。Tapaswi等人采用memory网络来处理和重用问题的相关信息。Jang等人提出了利用时空attention机制。Lei等人介绍了一种multi-stream端到端网络,并使用RNN将其融合。有几个广泛使用的基准数据集。TGIF-QA数据集建立在简短的、特定动作的视频剪辑上,需要对动作进行精确的理解和推理,而其他两个数据集则具有更复杂的视频情节,需要更多的操作在场景的长时理解上。最近,应用动态memory网络的部分贡献是通过更好的表示和融合策略来增强智能。此外,薛等人提出了树状结构memory网络,Li等人利用self-attention对时间信息进行建模,介绍了几种新的视频问答方法。然而,现有的方法主要集中在多模态的表示和融合方面,在对齐和推理方面的研究还很少。

  2. 主要的视频问答方法基于细粒度表示或模型特定的attention机制。它们通常将视频和问题分开处理,然后将不同模态的表示输入后续的融合网络。虽然这些方法利用一个模态的信息来促进另一个模态,但它们都忽略于将模态间和模态内的相关性整合在一个统一的模块中。

    最近对VideoQA的努力试图揭示视频内容和词汇语义之间的潜在相关性,这种相关性可以被视为模态间相关性。Li等人引入了专门的co-attention机制来关注相关的视频和语言。Kim等人提出了一种渐进attention memory来进行动态模态融合。同时,研究表明,适当地结合视频内部的相关性或词序列之间的依赖关系有助于提高VideoQA的性能可以被看作是利用了模态内的相关性。一种常见的做法是分别使用基于RNN的编码器对视频和单词序列进行编码。另一个贡献是Fan等人提出了异构memory来融合视觉特征,同时设计了另一个memory来处理问题。另一方面,在大多数情况下,将模态间和模态内的相关(也称为异构关系)以一种更易理解的方式整合起来,可能会进一步有利于VideoQA的推断,如图结构化方法。如图1上部所示。为了回答这个问题,作者首先要建立”woman”这个词与视频中的视觉区域之间的语义关系,然后对动作”put hand”进行描述。此外,作者需要模态间的对齐和语义相似度来确定时间推理后的动作”dance”。然而,目前的VideoQA方法缺乏一个统一的模型来同时进行模态间关系和模态内关系的建模和推理。本文提出了一种新的异构图对齐网络(HGA)以执行跨模态推理和VideoQA解决该问题。
    在这里插入图片描述

方法
简介

本文提出了一种新的异构图对齐网络(HGA)以执行跨模态推理和VideoQA。作者首先建立一个统一的不同模态因子上的异构图,是一种表达和可解释的途径。通过异构图,如图1的下部所示,模态内同质边和模态间异构边是两种类型的边。作者可以在一个模态内推理,比如“S1⇌S3”和“W1⇌W2”,以及模态间,像“S1⇌W2”。特别是在图上,作者引入模块化的co-attention嵌入操作来将视觉和语言表征对齐,同时绘制进一步对齐的图卷积网络来建模多模态之间的复杂关联和推理。然而,一个难以解决的缺点是不同模态之间的语义鸿沟,阻碍了模态间的交互。近年来,跨模态attention机制作为一种折衷方法被广泛应用,作者将基于attention的融合视为交互空间中的语义对齐,这是构建图的关键先验知识。作者在三个基准数据集上评估了作者的方法,并对其有效性进行了广泛的消融研究。实验表明,该网络具有较高的质量。

在这里插入图片描述

作者的HGA网络的框架如图2所示。在本方法中,作者认为每个词和每个视频shots都包含相同的语义信息,并且可以集成到一个统一的模块中。准确地说,在整体上,作者设计了一个包括全局和局部融合的并行架构。为了联合建模视觉和语言因素(shots或文字),作者首先获得上下文的视觉和语言表征。注意,一个“视频shots”指的是一个小的视频片段,它可以通过一个3D卷积模块处理,并产生一个单个的运动向量。作者通过一个模块化的co-attention嵌入操作将视觉和语言向量嵌入到一个公共空间中。在异构图推理部分,首先提出了一种对齐策略,得到加权邻接矩阵,然后利用邻接矩阵构造多层图卷积网络进行多模态交叉推理。

Visual and Linguistic Contextual Representation

视频shots具有比帧级更丰富的运动表达能力,因此作者使用3D ConvNets(即C3D)来获取shots级视频运动特征,并且为了兼顾图像的感知,作者使用2D ConvNets(即ResNet)作为一个辅助视图。然后,视频被表示为两个特征视图,外观特征FA={ai:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AAAI 2020的教程“可解释人工智能”将重点介绍可解释人工智能的概念、方法和应用。可解释人工智能是指人工智能系统能够以一种可理解的方式解释其决策和行为的能力。该教程将涵盖可解释人工智能的基本原则和方法,包括规则推理、可视化技术、模型解释和对抗性机器学习等。 在教程中,我们将首先介绍可解释人工智能的背景和意义,解释为什么可解释性对于人工智能的发展至关重要。然后,我们将深入探讨可解释人工智能的基本概念和技术,例如局部解释和全局解释。我们还将介绍一些关键的可解释性方法,如LIME(局部诠释模型)和SHAP(SHapley Additive exPlanations),并解释它们的原理和应用场景。 此外,我们还将探讨可解释人工智能在各个领域的具体应用,包括医疗诊断、金融风险管理和智能驾驶等。我们将分享一些成功的案例和实践经验,探讨可解释人工智能在实际应用中的挑战和解决方案。最后,我们还将讨论未来可解释人工智能的发展趋势和挑战,展望可解释性在人工智能领域的重要性和前景。 通过参加该教程,学习者将能够全面了解可解释人工智能的概念、方法和应用,理解其在实际应用中的重要性,掌握一些关键的可解释性技术和工具,并对可解释人工智能的未来发展有一个清晰的认识。希望通过这次教程,能够为学习者提供一个全面而深入的可解释人工智能学习和交流平台。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值