AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering

动机

在这里插入图片描述

  1. 视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统、机器人对话、视频检索等方面的广泛应用,近年来受到越来越多的关注。与深入研究的图像问答(Image QA)任务不同,图像问答任务侧重于理解静态图像,而视频问答更加实用,因为输入的视觉信息经常动态变化。

  2. 与图像问答相比,视频问答更具有挑战性。

    (1)视频中的视觉内容更为复杂,因为它可能包含数千帧,如图1所示。更重要的是,一些框架可能被强大的背景内容所支配,而这些背景内容与问题无关。

    (2)视频中经常包含多种动作,但只有一部分动作是被关注者感兴趣的。

    (3)视频问答任务中的问题往往包含与时间线索有关的问题,这意味着在进行答案推理时,既要考虑目标的时间位置,又要考虑目标之间的复杂交互作用。例如在图1中,为了回答“人在旋转水桶之前做了什么”的问题,机器人不仅要通过理解人与不同帧中的物体(即手提电脑和水桶)之间的相互作用来识别动作“旋转笔记本电脑”和“旋转水桶”,而且还要找出动作的时间或时间(如前/后)进行沿时间轴的回答推理。

  3. 以往的研究方法试图将时空attention机制应用于视频帧特征,而没有明确地对视频中发生的目标交互间的位置和关系进行建模。然而,目标交互与位置信息之间的关系对于行为识别和问题推理都是非常重要的。

    以视频帧为输入,大多数现有方法采用帧特征上的某种时空attention机制来询问网络“去哪里看、什么时候看”。然而,由于视频中的复杂的背景内容,这些方法往往不够健壮。2018年Lei等人通过检测每帧中的目标,然后通过LSTM处理目标特征的序列来解决这个问题。然而,输入目标序列的顺序可能会影响系统的性能,很难排序。更重要的是,以递归的方式处理目标必然会忽略非相邻目标之间的直接交互作用。然而,目标交互与位置信息之间的关系对于对于视频问答至关重要。

方法
简介

本文介绍了一种简单而功能强大的网络-位置感知图卷积网络(L-GCN),用于建模与问题相关的目标之间的交互。作者提出通过将目标的位置信息纳入到图构造中,将视频中的内容表示为位置感知图,并通过图卷积来识别动作的类别和时间位置。具体地说,感兴趣的目标首先由现成的目标检测器检测。然后,构造一个全连通图,其中每个结点都是一个目标(由其外观和位置特征表示),结点之间的边表示它们之间的关系。作者进一步将空间和时间的目标位置信息结合到每个结点中,使图形能够感知目标的位置。在对目标图进行图卷积时,目标之间直接通过边传递消息进行交互。最后,将GCNs的输出和编码的问题特征一起输入到一个视觉-问题交互模块(利用attention机制)中,以预测问题的答案。大量的实验证明了所提出的位置感知图的有效性。作者在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上实现了最先进的结果。

问题定义

给定一个包含N个帧的视频,其中在每个帧检测到K个目标。 R={on,k,bn,k}n=1,k=1n=N,k=K 是检测到的目标集,其中o表示通过RoIAlign获得的目标特征,b是每个目标的空间位置。用T=N×K来表示一个视频中目标的总数。本文将图表示为G=(V,E),其中M个结点vi∈V,边eij∈E,图的邻接矩阵表示为A∈RM×M。包含k个单词的问题记为Q。

在本文中,作者关注视频QA任务,该任务要求该模型用于回答与视频相关的问题。由于视频内容复杂且具有很强的不相关背景,这一任务具有挑战性。此外,视频问答任务中的大多数问答对都与一个以上的带有时间线索的动作相关。要正确回答问题,模型是必需的,而不仅仅需要正确识别来自复杂内容的行为,也需要知道它们的时间顺序。

总体方案

在这里插入图片描述

作者方法的一般方案如图2所示。L-GCN由两个分支组成,即问题编码器分支和视频编码器分支,分别处理queries和视频内容。两个分支的输出与视觉-问题(VQ)交互模块相结合。建立在目标上的位置感知图既考虑了目标之间的交互作用,又考虑

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AAAI 2020的教程“可解释人工智能”将重点介绍可解释人工智能的概念、方法和应用。可解释人工智能是指人工智能系统能够以一种可理解的方式解释其决策和行为的能力。该教程将涵盖可解释人工智能的基本原则和方法,包括规则推理、可视化技术、模型解释和对抗性机器学习等。 在教程中,我们将首先介绍可解释人工智能的背景和意义,解释为什么可解释性对于人工智能的发展至关重要。然后,我们将深入探讨可解释人工智能的基本概念和技术,例如局部解释和全局解释。我们还将介绍一些关键的可解释性方法,如LIME(局部诠释模型)和SHAP(SHapley Additive exPlanations),并解释它们的原理和应用场景。 此外,我们还将探讨可解释人工智能在各个领域的具体应用,包括医疗诊断、金融风险管理和智能驾驶等。我们将分享一些成功的案例和实践经验,探讨可解释人工智能在实际应用中的挑战和解决方案。最后,我们还将讨论未来可解释人工智能的发展趋势和挑战,展望可解释性在人工智能领域的重要性和前景。 通过参加该教程,学习者将能够全面了解可解释人工智能的概念、方法和应用,理解其在实际应用中的重要性,掌握一些关键的可解释性技术和工具,并对可解释人工智能的未来发展有一个清晰的认识。希望通过这次教程,能够为学习者提供一个全面而深入的可解释人工智能学习和交流平台。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值