视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍

本文是关于综述论文《Video Understanding with Large Language Models: A Survey》的部分介绍。文章调研了将视频理解和大语言模型结合的最新技术,从任务、方法、评价、应用等方面对视频大语言模型进行介绍。本文写于2024年4月。

有关本专栏的更多内容,请参考大语言模型论文调研专栏目录


文章链接:https://arxiv.org/pdf/2312.17432.pdf

作者维护了一个网站用于更新最新的视频大模型技术:https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding

文章引用:

@article{tang2023video,
  title={Video understanding with large language models: A survey},
  author={Tang, Yunlong and Bi, Jing and Xu, Siting and Song, Luchuan and Liang, Susan and Wang, Teng and Zhang, Daoan and An, Jie and Lin, Jingyang and Zhu, Rongyi and others},
  journal={arXiv preprint arXiv:2312.17432},
  year={2023}
}

1. 视频理解的历史

视频理解的历史

1.1 传统方式的视频理解

在视频理解的早期阶段,手工特征提取技术如尺度不变特征变换(SIFT)、加速稳健特征(SURF)和方向梯度直方图(HOG)被用于捕获视频中的关键信息。背景减除、光流方法和改进的稠密轨迹(IDT)被用于建模运动信息以进行跟踪。由于视频可以被视为时间序列数据,时间序列分析技术如隐马尔可夫模型(HMM)也被用于理解视频内容。在深度学习流行之前,基本的机器学习算法如支持向量机(SVM)、决策树和随机森林也被用于视频分类和识别任务。聚类分析用于分类视频段,或者主成分分析用于数据降维也是常用的视频分析方法。

1.2 基于人工神经网络的视频理解

与传统方法相比,深度学习方法在视频理解方面具有更强大的任务解决能力。DeepVideo是最早引入深度神经网络,特别是卷积神经网络(CNN),用于视频理解的方法。然而,由于未充分利用运动信息,其性能并不优于最佳手工特征方法。双流网络将CNN和IDT结合起来,以捕获运动信息以改善性能,验证了深度神经网络在视频理解方面的能力。为了处理长视频理解,采用了长短期记忆(LSTM)。时间段网络(TSN)也是为了长视频理解而设计,通过分析单独的视频段然后对它们进行聚合。基于TSN,引入了Fisher向量编码、双线性编码和局部聚合描述符向量编码。这些方法提高了在UCF-101和HMDB51数据集上的性能。不同于双流网络,3D网络通过引入3D CNN到视频理解(C3D)另起炉灶。膨胀的3D卷积网络(I3D)利用了2D CNN,即Inception的初始化和架构,在UCF-101和HMDB51数据集上取得了巨大的改进。随后,人们开始使用Kinetics-400(K-400)和Something-Something数据集评估模型在更具挑战性场景中的性能。ResNet、ResNeXt和SENet也从2D适应到3D,导致了R3D、MFNet和STC的出现。为了提高效率,在各种研究中,3D网络已经分解成2D和1D网络。LTC、T3D、Non-local和V4D专注于长视频的时间建模,而CSN、SlowFast和X3D倾向于实现高效率。视觉Transformer的引入推动了一系列杰出的模型的发展。

1.3 自监督视频预训练

自监督预训练模型在视频理解中的可迁移性使它们能够在各种任务之间进行泛化,减少额外标注需求,从而克服了早期深度学习模型对大量任务特定数据的需求。VideoBERT是对视频进行预训练的早期尝试。基于双向语言模型BERT,相关任务被设计用于从视频文本数据中进行自监督学习。它使用层次K均值对视频特征进行标记。预训练模型可以微调以处理多个下游任务,包括动作分类和视频字幕生成。遵循“预训练”和“微调”的范式,涌现了大量关于视频理解预训练模型的研究,特别是视频-语言模型。它们要么使用不同的架构(ActBERT、SpatiotemporalMAE、OmniMAE、VideoMAE、MotionMAE),要么采用不同的预训练和微调策略(MaskFeat、VLM、ALPRO、All-in-One transformer、maskViT、CLIP-ViP、Singularity、LF-VILA、EMCL、HiTeA、CHAMPAGNE)。

1.4 使用大语言模型进行视频理解

近年来,大型语言模型(LLMs)发展迅速。在广泛数据集上预训练的大型语言模型的出现引入了一种新的上下文学习能力。这使它们能够使用提示来处理各种任务,而无需进行微调。ChatGPT是建立在这一基础上的第一个突破性应用。包括生成代码、调用其他模型的工具或API等能力。许多研究正在探索使用像ChatGPT这样的LLMs调用视觉模型API来解决计算机视觉领域的问题,包括Visual-ChatGPT。指导调整的出现进一步增强了这些模型对用户请求的有效响应能力和执行特定任务的能力。集成了视频理解能力的LLMs提供了更复杂的多模态理解优势,使它们能够处理和解释视觉和文本数据之间的复杂交互。类似于它们在自然语言处理(NLP)中的影响,这些模型作为更通用的任务解决者,在利用其广泛的知识库和从大量多模态数据中获得的上下文理解方面表现出色,擅长处理更广泛的任务范围。这使它们不仅能够理解视觉内容,还能够以更符合人类理解方式的方式进行推理。许多作品还探索了在视频理解任务中使用LLMs,即Vid-LLMs。

视频-大语言模型的时间线

2. 基础知识

视频理解的任务已从基本分类和识别演变为更复杂的任务,如标题、总结、关联和检索以及问答等。这些任务要求模型以接近人类水平的理解来解释视频,融合了时间连续性、逻辑推理和语境知识。视频理解的主要任务包括识别和预测、标题和总结、关联和检索以及问答等类型。并且模型已经从处理有限帧数的经典方法发展到可以处理数百帧,使其能够提供详细描述并回答有关视频内容的复杂问题。将大型语言模型(LLMs)整合到视频理解中的四个主要策略正在推动这一进程。

  • LLM-based Video Agents: 在LLM为基础的视频理解方法中,LLM充当中央控制器。它们引导视觉模型有效地将视频中的视觉信息转化为语言领域,包括提供详细的文本描述和转录音频元素。
  • Vid-LLM Pretraining: Vid-LLM预训练方法专注于利用监督或对比训练技术从头开始开发基础视频模型。在这个框架中,LLMs既充当编码器又充当解码器,为视频理解提供了全面的功能。
  • Vid-LLM Instruction Tuning: Vid-LLM指令调整策略涉及构建专门的调整数据集,以精细调整视觉模型与LLMs的整合,特别在视频领域。
  • Hybrid Methods: 混合方法利用视觉模型在微调过程中提供额外反馈。这种协作方法使模型能够获得超出文本生成的能力,如物体分割和其他复杂的视频分析任务。

2.1 将视频信息与大语言模型整合

为了赋予LLMs解释视频内容的能力,有两种主要方法:

  • 利用预训练的视觉模型从视频中提取文本信息,并将其格式化为LLMs生成回应的提示词;
  • 将LLMs与视觉模型结合起来,使用微调或预训练策略创建一个统一模型,能够处理视频内容。

先进的大型语言模型如GPT-4具有作为控制器的能力,指导视觉模型执行特定任务。在这个框架中,视觉模型主要充当翻译器,将视觉信息转换为语言文本。流行的视觉模型选择包括字幕生成模型和标注模型。这些模型通常在广泛的数据集上预训练,并且易于集成。

视觉模型提取的语言信息然后被转换为LLMs生成响应或请求进一步信息的提示。视觉模型在这个交互过程中发挥着至关重要的作用,根据LLMs的需要可以提供更详细或具体的信息。LLMs与视觉模型之间的这种协作创造了一个能够解释和回应复杂视觉输入的动态系统。

在微调方面,主要有两种普遍的类别:基于帧的编码器和时间编码器。这些视频编码器处理不同长度的输入视频,通过视频建模模块将帧级特征聚合成统一的视频级特征。

2.2 视频理解任务中大语言模型的角色

语言在视频理解中起着重要作用,主要包括文本编码和解码两个方面。

对于文本编码,装有编码器的语言模型(如BERT或T5)因其稳健的性能和出色的适应性在该领域备受青睐。生成的文本嵌入通常与视频嵌入合并,作为解码器的输入。例如,BLIP-2模型中使用的Q-former即采用了这种方法。

在文本解码方面,从专门针对不同任务的转换器模型转向预训练语言模型。这些大型语言模型参数规模各不相同,Bert系列的一些模型可以有数亿个参数,而LLaMA系列的模型则可能达到数十亿个参数。采用Transformer架构,它们在自回归框架下运行,预测序列中的下一个令牌,这对于文本生成非常有效。在这个领域,LLaMA系列尤为突出,特别是像Vicuna这样的模型。Vicuna以其7B/13B模型规模而闻名,尤其在文本解码任务中表现出色。

2.3 其他模态

我们需要区分:“音频”指视频中的背景声音,“语音”涵盖视频中的口头内容。音频和语音通常被分开处理,音频被视为一个整体,而语音则被转成文本。语音通常由专门的语音编码器处理,通常是一个预训练的语音识别模型,如Whisper。该模型将语音转成文本,为LLM提供有价值的上下文信息。

2.4 训练策略

在调整预训练的基础模型以适应各种视频理解任务时,通常会使用适配器模块,它充当了两个角色:

  • 在基础模型和LLM之间架起桥梁
  • 帮助预训练模型适应新任务,同时不会丢失从预训练中学到的知识。

适配器通常作为可学习的、参数高效的模块添加到预训练模型中,以扩展或调整它们的功能。

适配器的常见应用是将来自不同模态的输入转换为文本领域,有效地连接不同的模态,同时保持预训练模型(如编码器和解码器)的参数冻结。在这个过程中的一个关键挑战是以对LLM可理解的方式高效地将视觉内容转化为文本。流行的解决方案包括线性投影,将视觉特征的维度与文本特征的维度对齐,以及交叉注意力机制,如Q-former,将视觉特征与相关的文本内容对齐。

此外,适配器还用于定制LLM的输出以适应特定任务,例如从多项选择题中选择答案。这个功能通常类似于LoRA(低秩适应)模块的作用,有效地微调模型的输出以适应特定任务的特定要求。

3. 视频-大语言模型框架

在多模态大型语言模型(MLLMs)领域,我们见证到大型语言模型与各种数据模态的卓越统一,涵盖了从文本到图像等多样数据,展示了它们非凡的多功能性和适应性。这些多模态方法不仅增强了模型的理解和推理能力,还为人工智能的下一个演进跃升奠定了基础:LLMs与视频理解的整合。

视频-大语言模型类型

3.1 基于大语言模型的视频智能体

基于LLMs的视频理解智能体有很多类型,每种都采用独特的方法整合多模态数据以增强视频分析。一些利用LLMs作为解决任务的工具来发挥其他基础模型的作用,而另一些则利用LLMs处理来自视觉、听觉和文本元素的翻译,展示了它们在视频理解中的通用任务解决能力。

  • Socratic Models:Socratic Models采用基于语言的交换形式,无需进行新的训练或微调,来制定新任务。通过整合视觉、听觉和文本数据,该模型生成语言化的世界状态历史,计算视频帧上的平均CLIP属性,并在MSR-VTT数据集上进行视频到文本检索的评估。虽然支持处理语音,但不支持处理视频中的声音。
  • Video ChatCaptioner:Video ChatCaptioner旨在生成视频的详细和全面的时空描述。通过ChatGPT和BLIP-2之间的对话,模型增强视频理解。ChatGPT提出问题并选择帧,BLIP-2回答问题,最终由ChatGPT合成全面的视频标题。该方法在MSVD和WebVid数据集上进行性能评估,但不支持处理视频的声音或语音。
  • Vlog:VLog利用预训练模型记录和解释视频的视觉和音频信息,包括使用BLIP2进行图像标题、GRIT进行基于区域的视觉标题,以及Whisper进行音频转录。其中Whisper能够准确地捕获视频中的语音内容并转录为文本,而ChatGPT则用于推理聚合数据,提升对视频内容的理解和互动。
  • ChatVideo:ChatVideo是一个以轨迹为中心的多模态视频理解系统,结合ChatGPT和各种视频基础模型,通过轨迹为重点的方法解释视频数据。该模型使用Whisper和Wav2Vec 2.0处理音频和语音,实现交互式和多模态视频理解,包括考虑外观、运动和音频方面,同时支持用户驱动的查询交互。
  • MM-Vid:MM-Vid是一个专为高级视频理解任务设计的系统,包括Grounded Question-Answer、Multimodal Reasoning、Hour-Long Video Comprehension等。它通过ASR将视频处理成剪辑,再使用GPT-4V生成这些剪辑的详细描述,从而深入理解视频内容。该模型支持处理声音和语音输入,通过在多样数据集上测试和微调,提升视频内容处理和理解能力。
  • MM-Narrator:MM-Narrator是一个基于GPT-4的系统,旨在为长视频生成音频描述(AD)。它通过组合多模态信息处理视频理解任务,支持处理视觉和听觉输入,包括声音和语音,以实现全面的视频理解。通过自动语音识别和段落式GPT-4评估来提升性能。
  • MISAR:MISAR架构利用GPT-3.5的推理能力改善视频文本说明,通过收集背景知识的上下文信息,处理各种类型的输入。尽管存在错误传播和对环境音频元素缺乏理解等局限,但该系统能显著增强增强现实环境状态估计能力。

3.2 视频-大语言模型预训练

  • LaViLa:处理自我中心视频的多模态任务,包括问题回答、检索、动作识别和查询。利用Narrator和Rephraser模块,生成文本描述。在Ego4D数据集上训练和评估。
  • Vid2Seq:用于视频字幕生成,在YT-Temporal-1B数据集预训练,支持密集视频字幕生成和事件定位。不支持音频输入,但可处理视频中的语音。
  • VAST:支持视频/音频字幕生成、问答和检索任务,通过LLM将多模态转换为文本。在VAST-27M数据集上预训练,应用于多个数据集。
  • Merlin:处理视频理解任务,包括对象追踪、引用、关系和未来推理。使用FPT和FIT预测对象轨迹和未来事件。在多个数据集上评估,不支持处理视频声音。

3.3 ViD-LLMs指令微调

由于资源受限,在大型模型的精细调整中,并非所有参数都会更新;而是只有适配器的一些参数会被更新。在Vid-LLMs指导调整中,通常使用两种类型的适配器:连接型和插入型。连接型适配器主要用于对齐视觉和文本语义,而插入型适配器则通常插入到LLM中。

连接型的适配器:

  • Video-LLaMA:使用多种适配器类型,包括线性投影层、MLP、交叉注意力层、Q-former和它们的组合,用于对齐不同的模态。Video-LLaMA是一个多模态框架,通过整合视听内容理解,增强了LLM在视频理解方面的能力。框架使用ViT-G/14作为视觉编码器,并在VL分支中使用BLIP-2 Q-Former进行视频编码。VL分支在Webvid-2M和LLaVA数据上进行预训练,并通过MiniGPT-4、LLaVA和VideoChat的数据进行微调。AL分支使用两层音频Q-Former和ImageBind-Huge编码器,专注于音频表示。Video-LLaMA可以处理自然音频输入,但不支持语音输入。
  • VALLEY:集成LLM、时间建模模块和视觉编码器,可用于处理多镜头字幕、长视频描述、动作识别和因果关系推理等任务。使用ViT-L/14从CLIP提取视觉特征,并通过时间建模模块在时间上进行聚合。采用Stable-Vicuna作为LLM主干,经过两阶段训练,包括预训练和自建视频指令数据的微调。VALLEY的性能评估涉及多个视频和图像理解数据集,不支持声音或语音输入。
  • Video-ChatGPT:专为理解视频设计,使用修改后的CLIP ViT-L/14视觉编码器提取时空特征,并与语言嵌入对齐,集成到LLM中。引入一个新的数据集含有100K视频指令对,通过人工辅助和半自动注释方法创建,支持多样性和复杂性的训练。不支持处理声音或语音输入。
  • Macaw-LLM:处理视频理解任务的多模态语言模型,整合视频、图像、文本和音频数据。利用视觉模态编码器提取特征来建模视频,支持音频作为多模态方法的一部分。使用一步指导微调方法简化适应过程,确保跨模态的一致对齐。
  • LLMVA-GEBC:用于Generic Event Boundary Captioning(GEBC)的LLMVA-GEBC模型独特地结合了先进的特征提取器和LLM,用于精确的视频字幕。使用CLIP-ViTG与Q-former等特征提取器处理主要和辅助视觉特征。模型在CVPR 2023 GEBC竞赛中取得显著成功,但不支持处理声音或语音输入。
  • mPLUG-video:用于视频理解任务,处理视频类别分类、视频字幕和视频文本检索。采用TimeSformer-based视频编码器提取特征,使用预训练的Chinese GPT-3作为语言解码器。在视频类别分类和视频字幕任务中表现出色,但不支持处理声音或语音输入。
  • MovieChat:主要专注于长视频的处理和理解,使用基于长短期注意力的记忆机制从大量视频内容中提取信息。在推断过程中可以以全局模式或断点模式操作,不仅包括长期记忆还包括当前帧和当前短期记忆中的信息。对于长视频理解任务引入了一个新数据集MovieChat-1K,包含来自各种电影和电视剧的高质量视频片段,并附有14K手动注释。
  • LLaMA-VQA:用于VideoQA(视频问答)的视频理解任务,通过预测视频、问题和答案的组合来解决LLMs中的语言偏差。该模型在五个具有挑战性的VideoQA基准测试上进行评估,表现优异,不支持处理声音或语音输入。
  • Video-LLaVA:Video-LLaVA通过将图像和视频的视觉表示统一到单一语言特征空间中,然后进行投影,实现了多模态交互的有效学习。在混合图像和视频的数据集上进行训练和评估,在MSRVTT、MSVD、TGIF和ActivityNet等基准测试中展现出优越结果,但不专门支持处理声音或语音输入。
  • Chat-UniVi:能够处理各种视频理解任务,如细节导向、上下文理解、时间理解和一致性。使用动态视觉标记代表空间和时间方面,而不是直接将所有视频信息发送到LLMs中。在视觉特征编码阶段,使用多尺度表示让LLMs感知高级语义概念和低级视觉细节。
  • AutoAD II:专为电影中的音频描述(AD)任务设计,关注于确定适合插入AD的时刻、字符识别和AD文本生成。结合CLIP视觉特征、角色库和带有门控交叉注意机制的GPT-2进行文本生成。主要应用在提高电影对视障观众的可访问性,但不明确支持声音或语音输入。
  • FAVOR:是一个细粒度的音频-视觉大型语言模型,可以处理视频和音频输入并输出文本。使用因果Q-Former来对齐视频特征、音频特征和LLM输入空间特征,实现精细的音频-视觉联合表示。引入了Audio-visual Evaluation Benchmark (AVEB)来评估音频-视觉LLMs,包括单模态和多模态任务。

插入式适配器:

  • Otter:创新的多模态模型,旨在增强上下文学习和指令遵循,基于OpenFlamingo框架。使用特别设计的MIMIC-IT数据集,结合了图像-指令-答案三元组和上下文相关示例,促进了强大的指令理解。训练过程中采用了预训练的语言和视觉编码器,以及可调节的组件,大约有13亿可训练参数。采用LLaMA-7B语言编码器和CLIP ViT-L/14视觉编码器,是多模态、上下文学习的重大进展,适用于各种研究和实际应用领域。
  • VideoLLM:多功能框架,将LLMs应用于一系列视频理解任务,包括在线推理、未来预测、记忆检索和密集预测。使用各种视觉编码器提取视频特征,如I3D、CLIP和SlowFast,预训练于ImageNet、Kinetics和Epic-Kitchens等数据集上。通过Modality Encoder和Semantic Translator处理这些特征,将其转换为与LLMs兼容的标记序列。在微调过程中采用了基本调整、部分调整和参数高效微调(PEFT)等技术,评估效果时使用了Epic-Kitchens、Ego4D等数据集。

混合型:

  • VTimeLLM:为高级视频理解任务设计的新型模型,特别擅长于时间视频定位和密集视频字幕。将视觉编码器(CLIP ViT-L/14)与视觉适配器整合到LLM框架中,将视觉信息转换为类似文本的嵌入。经历三阶段有界训练过程:特征对齐阶段、边界感知阶段和指令调整阶段。数据集包括LCS-558K用于特征对齐、InternVid-10M-FLT用于边界感知,以及ActivityNet Captions和DiDeMo用于指令调整。主要关注视频理解中的视觉和文本方面。

  • GPT4Video:GPT4Video可以处理视频理解和生成任务,包括视频问答、视频字幕和文本到视频生成。使用Abstractor和交叉注意力层来压缩视频信息沿着时间和空间轴。在VideoChat-11k数据集上通过LoRA微调冻结的LLaMA模型进行特征对齐,在GPT4Video-50k数据集上进行指令遵循,在MSRVTT-QA和MSVD-QA数据集上评估视频问答任务,使用MSR-VTT数据集评估视频字幕和文本到视频生成任务。不支持音频输入。

3.4 混合方式

结合了微调和基于LLM的视频代理模型,同时具有两种方法的优势。

  • VideoChat:创新的以聊天为中心的视频理解系统,通过可学习的神经接口将视频基础模型与大型语言模型整合,包括两个主要组件:VideoChat-Text将视频内容转换为文本格式进行分析,VideoChat-Embed是用于视频对话的端到端模型,结合视频和语言模型以增强时空推理和因果推断性能。使用专门设计的以视频为中心的指令数据集进行微调,展示出多样化视频应用的巨大潜力。
  • PG-Video-LLaVA:评估PG-Video-LLaVA涉及视频生成和问答基准测试,包括针对视频对象定位的新引入的基准测试。未在摘要中说明用于微调和评估的数据集。该模型通过将音频信号纳入其视频理解框架来支持处理声音或语音输入。

4. 任务、数据集和基准

4.1 识别和预测

视频理解中的基本任务之一是理解动作和事件。识别主要关注准确检测和分类视频中发生的动作。这涉及在视频序列中解释和理解人类动作,从而使机器能够正确分类这些动作。示例任务包括视频分类、动作检测和活动识别。此外,这个过程可以轻松扩展到时间定位,不仅涉及识别特定动作,还包括确定其在视频中的持续时间和顺序,另一方面,定位涉及根据从视频中提取的当前上下文来预测未来事件或动作。这种预测能力在动态环境中至关重要,因为它有助于预测潜在的未来情景,从而增强决策过程。示例任务涵盖了短期和长期动作定位,根据待预测序列的持续时间而异。

数据集概述:

  • Charades:该数据集聚焦于日常家庭活动。由于其逼真的场景和视频中复杂的重叠活动而脱颖而出。
  • YouTube8M:包含数百万YouTube视频ID及跨不同类别的相关标签的大型数据集,为实际世界视频内容提供了广泛的视角。
  • ActivityNet**:专为识别、检测和时间定位活动而设计,涵盖了广泛的人类活动,并有详细的时间注释。
  • Kinetics-GEBC:是原始Kinetics数据集的扩展,提供了具有描述性字幕的精细注释动作片段,增强了对动作理解的深度。
  • Kinetics-400:包括400个动作类别的YouTube视频URL,对开发大规模动作识别模型起着关键作用。

评测指标概述:

  • Top-k准确率:用于单标签动作识别或单步动作定位,该指标评估正确动作是否在前“k”个预测中。考虑到类别不平衡,通常更倾向于使用类均值Top-k准确率进行更细致的评估。
  • 平均精度均值(mAP):适用于多标签识别或多步预测场景,其中将未来动作视为独立事件。mAP评估了各种标签的预测精度。
  • 编辑距离(ED):仅计算每个未来时间步的预测准确度会忽视一个关键方面:预测顺序的序列性质和重要性,需要一种不同的评估方法。基于Damerau-Levenshtein方法,ED评估了预测动作序列的顺序和准确度,允许插入、删除或替换等调整。较低的ED分数表示与实际序列更接近,承认了预测任务的序列性质。

4.2 标题和描述

超越简单的识别,生成视频内容的文本描述提供了对视频内容更丰富、更详细的理解。这些描述不仅捕捉了单帧中可见的元素,还将事件序列编织在一起,揭示随着时间推移而展开的潜在叙事或含义。这个过程通常需要多模态理解,其中音频元素与视觉线索一起发挥关键作用,以完全把握内容的背景和含义。这个类别下有许多任务,其中视频字幕是一个关键的例子。这个任务分为各种形式,如密集字幕、视频片段字幕和在线字幕,每种形式都处理视频解释的独特方面。与提供详细描述的字幕相比,总结侧重于将核心内容浓缩成简洁的格式。其主要目标是将视频的精髓浓缩成简短的摘要,视频摘要在这一领域是一个显著的例子。

数据集概述:

  • MSVD: 包含1,970个视频,侧重于单一活动剪辑,配有多语言字幕。
  • MSR-VTT: 大规模数据集,包含40小时以上的视频内容,10,000个视频剪辑,总共有200K个视频-文本对。
  • TGIF: 收集了来自Tumblr的100,000个动画GIF,配有120,000个句子注释。
  • Charades: 包含来自三大洲的户内日常活动视频,提供27,847个视频描述和各种场景。
  • Charades-Ego: 同Charades类似,但录制了68,536次活动,提供第一人称和第三人称视角的独特透视。
  • ActivityNet Captions: 扩展自原始ActivityNet,专为识别任务设计,包含20,000个视频,每个都有100,000个详细句子。
  • HowTo100m: 包含超过一亿个未筛选的教学视频,通过MIL-NCE进行纠正,为各种视频理解任务提供强大的数据集。
  • MAD: 从650部电影中汇总约384K句子和61.4K个独特词汇,重点提供给视障人士的音频描述。
  • YouCook2: 来自YouTube的2,000个烹饪视频,配有逐步说明,专为烹饪领域的程序理解而设计。
  • MovieNet: 提供电影关键帧和相关元数据的全面收集,用于电影理解和推荐系统研究。
  • Youku-mPLUG: 最大的公开中文视频-语言数据集,为中文受众的视频类别预测、视频-文本检索和视频字幕设计而创建。
  • ViTT: 包含带有短暂时态本地化描述的教学视频,适用于视频摘要和指导生成。
  • TVSum: 视频摘要的关键基准数据集,包含50个不同类型的长视频,每个都经过用户研究得出的帧级重要性评分。
  • SumMe: 特点是包含较短的用户生成视频,涵盖假期和体育等各种活动,配有人工创建的摘要注释。
  • VideoXum: 将传统的单模态视频摘要任务扩展为跨模态任务,构建在ActivityNet Captions基础上,包含14K个长视频和140K对视频-文本摘要。

评测指标:

  • BLEU (Bilingual Evaluation Understudy): 主要用于机器翻译,侧重于词汇相似性,评估生成字幕中有多少单词和短语与参考字幕一致。通过计算机生成文本和参考文本之间n-gram(n项词序列)的重叠来评估文本质量。
  • METEOR (Metric for Evaluation of Translation with Explicit Ordering): 也是为机器翻译设计,注重语义准确性和灵活匹配(超越字面匹配),考虑同义词和释义,因此比BLEU提供了更微妙的评估。它根据单词和短语之间的精确、词干、同义词和释义匹配评估翻译。
  • ROUGE-L (Recall-Oriented Understudy for Gisting Evaluation - Longest common subsequence): ROUGE-L强调内容流畅性和结构,通过评估最长共享单词序列来关注序列而非单个单词。它衡量系统生成的摘要与一组参考摘要之间的最长公共子序列,侧重于单词的最长共现序列。
  • CIDEr (Consensus-based Image Description Evaluation): 基于图像字幕,CIDEr通过考虑生成字幕与一组参考字幕的共性来衡量其相似性。CIDEr评估字幕的相关性和特定性,强调更具信息性和区分性的术语,适合描述图像(或视频)。
  • SPICE (Semantic Propositional Image Caption Evaluation): SPICE通过将字幕与人类参考进行比较来评估字幕质量,着重于语义理解和准确性。它将字幕拆分成场景图,以详细评估其事实正确性和与图像内容及动作的对齐情况。
  • WMD (Word Mover’s Distance): WMD是文本文档之间距离的度量方法,基于相似文档具有相似词分布的原则,评估一个文档需要多少修改才能类似于另一个文档。在视频字幕中,WMD用于评估生成字幕与参考字幕的相似程度,关注整体词汇分布和选择而非精确序列。

4.3 定位和检索

视频定位侧重于根据给定的描述,在视频中识别和定位特定的时刻或事件。它涵盖了各种任务,每个任务都针对视频内容与文本信息之间的不同方面进行。视频定位的关键任务包括:

  • 视频检索:这项任务涉及将视频内容与文本描述对齐,并准确地从庞大的视频数据集中检索出多个相似活动或时刻的实例。挑战在于区分看似相同的实例,并确保基于文本提示的检索精度
  • 时间定位:其目标是在视频中定义与给定文本描述精确对应的时间边界。它要求模型解释并匹配特定的视频片段与文本中的叙述或描述要素,重点关注视频内容的时间特性
  • 空间时间定位:这要求模型在视频中准确定位和突出显示空间区域和时间边界,类似于识别与指定文本查询准确对应的空间时间管道。它涉及将空间意识与叙述上下文相结合,确保识别的实体与提供的文本描述准确对齐。

数据集概述:

具有时间标注的数据集适合构建检索和时间定位任务。要创建空间时间定位任务,数据集通常需要注释,如对象边界框、对象的关联语义含义以及它们在场景中的关系。

  • Epic-Kitchens-100:这是一个包含展示厨房活动的第一人称视角视频广泛收集的数据集。该数据集对于研究日常厨房场景中的多实例检索和动作识别至关重要,提供了独特的人-物互动视角。
  • VCR (Visual Commonsense Reasoning):这个数据集将图像与基于文本的问题和答案匹配,用于测试模型对视觉常识的理解能力,这是模型可解释性和决策制定的重要组成部分。结合图像与基于文本的问题和答案,挑战模型在视觉常识理解方面的表现。这个数据集对评估和增强模型对使用视觉输入进行解释和决策的能力至关重要。
  • Ego4D-MQ 和 Ego4D-NLQ:作为更广泛的Ego4D项目的一部分,这些数据集专注于第一人称视频中的空间和时间接地。它们是推进以自我为中心的视觉和交互式AI系统研究的重要资源,强调摄像机佩戴者的主观视角。
  • Vid-STG:专为时空接地而定制的Vid-STG使得可以开发能够同时在视频中空间和时间上定位和识别对象或动作的模型,代表了在AI系统中整合时空理解的重要一步。这个数据集有助于培养擅长视频内空间和时间接地的模型。这对于增强AI对时空动态的理解,促进开发更加综合和完整的AI系统至关重要。
  • CharadesSTA:这个数据集专注于通过提供将动作与精确时间段联系起来的视频进行时间接地。它促进了为动作定位开发先进模型,从而实现更准确和具有上下文意识的视频分析。CharadesSTA数据集在Charades数据集的基础上增加了句子级时间标注。
  • DiDeMo:DiDeMo代表“Distinct Describable Moments”,侧重于视频中的时间定位,并强调了将特定视频片段与自然语言描述相关联。这个数据集有助于提升模型解释和与视频内容的时间同步能力,利用自然语言作为理解的桥梁。

评价指标:在检索任务中使用的评估指标与典型分类任务中使用的指标相似,包括召回率和平均精度(mAP),在时间和空间定位的背景下,交并比(IoU)已被调整为衡量预测的时间边界与实际时间边界之间的重叠度,以及对象定位中边界框的重叠度。较高的IoU表示两个区间之间的匹配更接近,IoU为1.0表示完全匹配。平均交并比(mIoU)是测试集中所有注释的时间IoU的平均值。

4.4 视频问答

添加更多的分析处理到视频理解中,视频问答是一个要求系统回答关于视频内容的问题的任务。这个过程涉及更深入的分析处理,可以被广泛分类为两种主要类型:多选题问答和开放式问答。

多选题问答:这项任务为每个问题提供了一系列潜在答案供模型选择。对于模型来说,挑战在于准确识别给定选项中的正确答案。这种方法测试模型从一组选择中识别和选择最相关信息的能力。

开放式问答:与更结构化的多选题格式不同,开放式问答提供了更广泛的可能性。这种类型可以呈现为各种形式,如分类、生成或回归,根据数据集的具体情况进行调整。

传统上,开放式问答被视为多类别分类任务。在这种设置下,模型将视频-问题对分类到预定义的全局答案集合中。然而,随着大型语言模型(LLMs)在自然语言处理(NLP)中的日益主导地位,人们开始将开放式问答作为生成任务来对待。在这种现代方法中,模型积极生成答案,利用视频内容作为背景环境。

数据集概述:

  • MSVD-QA:基于MSVD,通过添加与视频内容相关的问题-答案对扩展了这个数据集。这一变化将焦点从字幕生成转移到了理解和回答关于视频内容的问题。
  • MSRVTT-QA:MSRVTT-QA专为在更受控制的环境中进行视频问答而设计。其优势在于详细的叙述风格视频描述,为问答任务提供了丰富的背景。
  • TGIF-QA:对于TGIF-QA,该数据集通过增加问答对,强调了时间推理和理解重复动作。这种改编需要创建用于测试的问题。
  • ActivityNet-QA:源自ActivityNet数据集,以其大量长篇未编辑视频库而闻名。与可能侧重于较短、更分段内容的其他QA数据集不同,ActivityNet-QA挑战模型掌握和解释复杂的连续活动和情节。
  • Pororo-QA:Pororo-QA在使用动画儿童故事方面独具特色,具体来说是"小企鹅宝宝"系列。它提供了丰富的叙述结构和简单的语言,非常适合研究基于故事的视频理解和问题回答。
  • TVQA:TVQA通过使用长篇TV节目剧集脱颖而出,结合了视觉和文本(字幕和剧本)信息。它提供了一个复杂的多模态挑战,需要理解复杂情节和角色互动在延长的叙述中的表现。

评价指标:

  • 多选题问答和开放式问答(分类):这里主要使用的度量标准是准确率。
  • 开放式问答(生成):对于系统生成答案的任务,通常采用了字幕生成中常用的度量标准,如BLEU、METEOR、ROUGE和CIDEr。
  • WUPS(Wu和Palmer相似度分数):WUPS度量标准是评估开放式问答中答案的有价值工具。WUPS是准确度的一种较软的度量,考虑了单词之间的同义词和语义相似性。它基于WUP分数来衡量单词相似性。在实践中,WUPS分数通过基于WordNet的单词相似性来对生成的答案质量进行微妙评估。这个度量标准在存在一系列语义相似的答案都可能被认为正确的情况下特别有用。

4.5 视频指令微调

涵盖了多样化的数据集,可用于提升Vid-LLM模型的视频指令调优。这强调了这些数据集的重要性,从用户注释的视频到多模态视频文本对,用于训练模型准确解释和生成基于视频的指令。这些数据集的多样性和复杂性对于在AI助手、互动媒体和机器人引导系统等领域发展AI能力至关重要,其中理解和执行视频指令是至关重要的。

预训练数据集介绍:

  • VidChapters-7M:VidChapters-7M是一个用户注释的视频章节数据集,包含817K个视频和7M个章节,旨在解决将长视频分段成章节的问题,以便用户可以快速查找感兴趣的内容。该数据集是以可扩展的方式从在线视频中自动生成的,涉及抓取用户注释的章节,无需额外的手动注释。
  • VALOR-1M:VALOR-1M是一个大规模高质量的三模态数据集,包含了100万个人声视频和人类注释的视听字幕。该数据集丰富了音频概念和音频视听字幕,适用于三模态模型的预训练和基准测试。VALOR-1M数据集使得可以训练模型,能够同时理解和生成视觉、音频和语言模态的内容,在各种下游任务上表现出色。
  • Youku-mPLUG:Youku-mPLUG是一个大规模的中文视频语言预训练数据集和基准测试,包含1000万个视频文本对用于预训练,以及30万个视频用于下游基准测试。该数据集从优酷网,一个知名的中国视频分享网站收集而来,并经过安全性、多样性和质量的过滤。Youku-mPLUG配有人类注释的基准测试,涵盖跨模态检索、视频字幕和视频分类等,用于全面评估视频语言模型和下游应用。
  • InternVid:InternVid包含超过700万个视频,总计近760,000小时,产生了2.34亿个视频片段,配有总计41亿个字的详细描述。它的核心贡献在于开发了一种可扩展的方法,通过LLMs自动构建高质量的视频文本数据集,展示了在大规模学习视频语言表示方面的有效性。
  • VAST-27M:VAST-27M是一个自动生成的大规模全模态视频字幕数据集,包含了2700万个开放域视频片段。该数据集旨在建立多模态视频轨道之间的连接,包括视觉、音频、字幕和文本。通过单独训练视觉和音频字幕生成器,生成相应的片段字幕,然后使用LLM集成这些生成的字幕和字幕以及指导性提示,创建全模态字幕。

在将各种模态与上述数据集进行对齐后,以下数据集将涵盖各种子任务,并将它们形成为视频指令调优。为了创建这样的数据集,使用各种视频模型提取文本信息,然后由GPT系列等先进的语言模型生成问答序列。这个过程旨在将推理能力注入视频理解模型中,从而增强它们在下游任务中的性能。

微调数据集介绍:

  • MIMIC-IT (Multi-Modal In-Context Instruction Tuning):该数据集包含了280万个多模态上下文指令-响应对和220万个唯一的带有多个图像或视频作为输入数据的指令。该数据集的视频子集包括来自各种来源的片段,如专注于第一人称视频内容的Ego4D以及以电视系列相关内容闻名的TVCaption。
  • VideoInstruct100K:由Video-ChatGPT引入,该数据集包含1万对高质量视频指令,主要来自ActivityNet Captions数据集。它使用各种模型来提取和描述视觉内容:BLIP-2用于帧字幕、GRiT用于详细场景对象描述,Tag2Text用于关键帧标记。GPT-3.5通过为四项关键任务生成问答对进一步丰富了数据集:1. 详细描述,2. 摘要,3. 创造性和生成任务,4. 对话。

5. 视频大语言模型的应用

5.1 媒体娱乐

在线视频平台和多媒体信息检索:Vid-LLMs显著增强了搜索算法,生成具有上下文意识的视频推荐,并在字幕生成和翻译等自然语言任务中发挥作用,为在线视频平台和多媒体信息检索系统做出贡献。它们在分析视频以进行特定关键词检索方面的能力改进了智能推荐系统。多媒体应用将视频与音乐等多媒体领域结合起来。

视频摘要和编辑:Vid-LLMs在生成视频内容简洁摘要方面起着至关重要的作用,分析视觉和听觉元素以提取上下文感知摘要的关键特征。这种应用在新闻聚合和内容策展中至关重要。它们还对视频编辑领域作出贡献,如现有文献所述。此外,在特定领域,如广告编辑,也存在应用场景。

5.2 人机交互

虚拟教育、无障碍和手语:Vid-LLMs在教育中充当虚拟导师的角色,分析教学视频以创建交互式学习环境。它们还促进手语翻译成口语或文本,改善了聋人和听力有障碍者的无障碍性。

交互式游戏和虚拟环境:在游戏行业中,Vid-LLMs在创建动态对话和故事情节方面发挥着关键作用,增强了与非玩家角色(NPCs)的交互体验,并帮助生成程序化内容,如任务和游戏内文本。它们还为客户服务聊天机器人提供支持。此外,在AR/VR/XR中,Vid-LLMs有助于生成动态叙事内容,提升用户沉浸感。

状态感知的人机交互和机器人规划:在人机交互领域,Vid-LLMs代表了一项重大进步,分析用户视频以识别上下文并提供定制化的帮助。交互形式也涉及视频内容理解,如字幕视频。这项技术增强了各种应用中用户的参与度,从教育到互动媒体。同时,在自主机器人导航中,SayPlan方法将LLMs与3D场景图集成,使机器人能够解释和导航大型建筑物中的复杂空间。这种方法简化了环境的复杂性,规划行动,并自我纠正导航错误,对在多房间环境中操作的机器人至关重要。

5.3 健康与安全

医疗保健创新:在医疗领域,Vid-LLMs在处理和解释医学文献、协助诊断和教育过程,并为医疗专业人员提供决策支持中起着至关重要的作用。它们被应用于患者互动工具,如用于症状评估和解决与健康有关的问题的聊天机器人,从而改善了患者护理和获取信息的途径。

安全、监控和网络安全:Vid-LLMs在安全和保护领域至关重要,分析通信以发现潜在威胁,并检测数据中的异常模式。在监控视频分析中,它们识别可疑行为,协助执法部门。它们在网络安全方面的作用包括识别钓鱼尝试,并通过总结与案件相关的文本来为取证分析做出贡献。

自动驾驶车辆的进展:在自动驾驶车辆中,Vid-LLMs处理自然语言输入以进行交互,帮助理解道路标志和指示,改进车辆控制系统的用户界面,增强安全性和用户体验。

6. 视频大语言模型的未来方向

6.1 细粒度视频理解

在细粒度视频理解方面仍存在挑战。无论是在视频的时间理解领域还是视觉基础领域,缺乏数据集和不足的研究使得在视频理解任务中实现更细致的粒度变得困难。此外,处理和分析视频数据需要大量的计算资源。细粒度理解通常意味着分析每个视频帧,显著增加了计算负载。此外,视频不仅包含空间信息,还包含时间信息。理解对象如何随时间变化和互动,尤其是在细粒度水平上,比预期的要复杂得多。进一步来说,理解视频内容的深层语义,如情感、隐喻或复杂场景的动态,比仅仅识别对象或动作更困难。LLMs与视频的结合为细粒度视频理解带来一线希望。LLMs使文本能够在各种级别上与视频对齐,部分解决了细粒度视频理解问题。

6.2 长时间视频理解

由于长视频包含大量帧,长视频的持续时间增加了分析的复杂性,特别是在理解事件和随时间变化的行为方面。因此,识别关键事件并在长视频中保持关注度是困难的。需要有效的机制来检测和突出重要部分,特别是在内容丰富或剧情复杂的视频中。

6.3 多模态视频理解

多模态视频理解需要整合不同类型的数据,如视觉、音频和文本,以更好地理解视频。特别关键的是,在空间和时间上同步这些数据。该领域缺乏相关研究,并面临数据集匮乏的挑战。此外,构建这样的数据集也面临挑战,因为确保数据标注的高质量和一致性通常是困难的。在方法学上,跨不同模态提取和利用有效特征对于实现准确的视频理解至关重要,但这一过程充满挑战。

6.4 视频理解中的人机交互

视频理解的结果最终服务于人类,因此如何更好地传达人类需求并理解模型结果也是一个非常重要的问题。LLMs的出现使视频理解模型和人类通过文本更有效地传递信息。然而,LLMs并没有完全解决交互问题。例如,使用文本来引导模型对视频的理解不能处理极端细粒度的视频理解;另外,当模型输出文本时,它不能精确描述视频中的复杂内容。此外,由于视频编码器和LLMs的能力,一些高级信息,如角色的情感和态度,无法被很好地表示。因此,如何利用其他提示,如点、涂鸦等,优化人类和视频理解模型之间的交互值得研究。另外,如何提升视频编码器保存细节的能力也是一个重要问题.

6.5 解决多模态大语言模型的幻觉问题

"幻觉"指的是模型生成与相关来源材料或输入明显不相连的响应的现象。这可能导致生成严重错误或不切实际的描述,与提供的视频不符。在LLMs的视频理解中,造成这种情况的主要原因如下:1. 视觉特征提取不充分。

7. 附录:论文的思维导图(大图,请在新标签页打开查阅)

2024_arXiv_Video Understanding with Large Language Models_A Survey
有关本专栏的更多内容,请参考大语言模型论文调研专栏目录

笔者自知才疏学浅,难免疏漏与谬误,若有高见,请不吝赐教,笔者将不胜感激!

softargmax

2024年4月02日

  • 36
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值