TPT:中科院等提出用于VideoQA的跨模态交互时间金字塔Transformer

关注公众号,发现CV技术之美

 写在前面

视频问答(VideoQA)一个具有挑战性的任务,因为它需要进行视觉理解和自然语言理解的多模态结合。现有的方法很少在多个时间尺度上利用视频中的外观-运动信息,并且问题与文本语义提取的视觉信息之间的交互作用经常被忽略

针对这些问题,本文提出了一种新的具有多模态视频QA交互作用的时间金字塔Transformer(TPT)模型。TPT模型包括两个模块,即特定于问题的Transformer(QT)和视觉推理(VI)。

给定由视频构建的时间金字塔,QT从每个单词和视觉内容之间的粗到细的多模态交互来构建问题语义 。在这种特定于问题的语义的指导下,VI从问题和视频之间的局部到全局的多层次交互中推断出视觉线索

在每个模块中,作者引入了一种多模态注意机制来帮助提取问题-视频交互,并对不同层次的信息采用残差连接。通过在三个VideoQA数据集上的广泛实验,作者证明了本文的方法比现有的方法具有更好的性能。

 1. 论文和代码地址

9d4c48abbe450f7e76ca8ab0e2470857.png

Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering

论文地址:https://arxiv.org/pdf/2109.04735.pdf

代码地址:https://github.com/Trunpm/TPT-for-VideoQA

 2. Motivation

随着计算机视觉和自然语言处理的进步,视频问答(VideoQA)在视频检索、智能QA系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。与图像问题回答相比,VideoQA更具挑战性,因为它除了建模问题与每个图像之间的语义相关性外,还需要进一步准确地提取问题与视频之间的动态交互。

4283d46c897e94e4c01292903c1b72c9.png

在现有的方法中,文本和视频的外观-运动信息之间的多层次交互作用在很大程度上被忽略了。从问题中看到的线索在视觉信息中具有清晰的层次结构,这表明需要从视频中提取不同时间尺度上的信息

如上图所示,为了理解“pandas”和“bench”的语义,信息性的视觉内容可以在时间金字塔的一个较粗粒度的层次上找到,也就是说全局信息就足够了。随着金字塔沿时间尺度的增加,包含细粒度和连续信息的视觉内容被暴露出来,这有助于理解问题中“play”和“how many”的语义。

这个例子揭示了在不同时间尺度上的视觉内容有助于问题与视频之间的交互作用,因此使用时间金字塔是一种实用的方法。

f71fdf07f1d8d23179a7ef32f62cc6a5.png

基于上述发现,作者提出了一种用于VideoQA多模态交互的时间金字塔Transformer(TPT)模型。该模型的结构如上图所示。TPT模型由特定于问题

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值