TPT：中科院等提出用于VideoQA的跨模态交互时间金字塔Transformer-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/120695416

本文介绍了一种用于VideoQA的多模态交互时间金字塔Transformer (TPT) 模型，通过时间金字塔结构捕捉视频的外观-运动信息，并利用特定问题的Transformer和视觉推理模块增强文本与视频的交互，提高模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

▊ 写在前面

视频问答(VideoQA)一个具有挑战性的任务，因为它需要进行视觉理解和自然语言理解的多模态结合。现有的方法很少在多个时间尺度上利用视频中的外观-运动信息，并且问题与文本语义提取的视觉信息之间的交互作用经常被忽略 。

针对这些问题，本文提出了一种新的具有多模态视频QA交互作用的时间金字塔Transformer(TPT)模型。TPT模型包括两个模块，即特定于问题的Transformer(QT)和视觉推理(VI)。

给定由视频构建的时间金字塔，QT从每个单词和视觉内容之间的粗到细的多模态交互来构建问题语义 。在这种特定于问题的语义的指导下，VI从问题和视频之间的局部到全局的多层次交互中推断出视觉线索 。

在每个模块中，作者引入了一种多模态注意机制来帮助提取问题-视频交互，并对不同层次的信息采用残差连接。通过在三个VideoQA数据集上的广泛实验，作者证明了本文的方法比现有的方法具有更好的性能。

▊ 1. 论文和代码地址

Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering

论文地址：https://arxiv.org/pdf/2109.04735.pdf

代码地址：https://github.com/Trunpm/TPT-for-VideoQA

▊ 2. Motivation

随着计算机视觉和自然语言处理的进步，视频问答(VideoQA)在视频检索、智能QA系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。与图像问题回答相比，VideoQA更具挑战性，因为它除了建模问题与每个图像之间的语义相关性外，还需要进一步准确地提取问题与视频之间的动态交互。

在现有的方法中，文本和视频的外观-运动信息之间的多层次交互作用在很大程度上被忽略了。从问题中看到的线索在视觉信息中具有清晰的层次结构，这表明需要从视频中提取不同时间尺度上的信息 。

如上图所示，为了理解“pandas”和“bench”的语义，信息性的视觉内容可以在时间金字塔的一个较粗粒度的层次上找到，也就是说全局信息就足够了。随着金字塔沿时间尺度的增加，包含细粒度和连续信息的视觉内容被暴露出来，这有助于理解问题中“play”和“how many”的语义。

这个例子揭示了在不同时间尺度上的视觉内容有助于问题与视频之间的交互作用，因此使用时间金字塔是一种实用的方法。

基于上述发现，作者提出了一种用于VideoQA多模态交互的时间金字塔Transformer(TPT)模型。该模型的结构如上图所示。TPT模型由特定