1.视频理解方案的发展
-
早期传统方案:人工设计的特征提取技术,例如SIFT、SURF、HOG等,用于从视频中获取关键信息。此外,背景减除、光流法和密集轨迹等方法也用于视频中的运动信息建模。由于视频可以被视为时序数据,因此诸如隐马尔可夫模型(HMM)等时序分析技术也被用于视频内容的理解。最初的机器学习方法,如支持向量机(SVM)、决策树和随机森林等,也用于视频分类和识别任务。然而,这些传统方法存在手工设计特征局限,无法充分处理海量视频数据和复杂的动态场景。
-
早期的神经网络模型:卷积神经网络(CNN)被引入视频理解领域,并通过与手工特征方法的结合显著提升了性能。为了处理长时序视频,长短时记忆网络(LSTM)也被用于长视频内容的分析。随着新的数据集(如UCF-101、HMDB51等)的提出,视频理解模型的性能进一步提高。此外,3D卷积神经网络的引入(如C3D、I3D等)大幅提升了视频理解任务在大规模数据集上的表现。基于transformer的vivit等。
-
自监督视频预训练:VideoBERT 等模型首次引入视频-文本的自监督学习,显著提升了多任务处理能力。其他方法如 ActBERT 和 VideoMAE,进一步提升了模型在视频分类、描述等任务中的表现。这类预训练模型在多种视频理解任务上表现出良好的适应性和泛化能力。视频场景的无监督训练任务包括:视频帧排序(Frame Ordering):给模型一组打乱顺序的视频帧,要求它预测正确的时间顺序。这可以让模型学习视频的时序信息;掩码预测(Masked Prediction):类似于语言模型中的掩码语言建模,部分视频帧或片段被掩盖,模型需要根据上下文恢复被掩盖的部分。这促进了模型对时空特征的理解;视频-文本对齐(Video-Text Alignment):通过配对视频与相应的文本描述,让模型学习视频与语言之间的关联。VideoBERT 就是利用这种任务,将视频特征和文本进行对齐;动作分类或视频片段预测:模型可以从未标注的视频数据中,通过任务如动作分类或预测未来帧来学习视频内容。这种任务能帮助模型捕捉视频中的运动模式。
-
基于LLM的视频理解方案:Vid-LLM(视频-LLM)的关键特点在于它们能够结合视频的时序、空间和语义信息,通过提示(prompts)实现复杂任务。相比传统视频理解模型,Vid-LLM 无需专门训练,可以通过上下文学习直接推理和生成。例如,像 ChatGPT 这样的LLM可以通过调用视觉模型的API,处理视频中的视觉信息并生成相应的输出。LLM 的 "提示学习" 和 "上下文推理" 能力,意味着它们无需像传统模型那样依赖大量标注数据或进行微调。它们可以在给定提示后,通过调用外部工具或直接生成文本,快速处理和理解视频内容。这样Vid-LLM不仅适用于单一任务,还能扩展到更复杂的跨模态任务。
2.预备知识
2.1视频理解的任务
视频理解任务大体上可以分为:
- 抽象理解任务:
- 视频分类:将视频划分为特定的类别,如动作、场景等。
- 动作识别:识别视频中发生的特定动作。
- 文本-视频检索:根据文本描述从数据库中检索出相应的视频片段。
- 视频摘要:对长视频生成简短的文本描述,提取视频中的关键信息。
- 视频描述生成:自动为视频生成自然语言描述。
- 时序理解任务:
- 视频摘要生成:将长视频浓缩为简短版本。
- 视频高光检测:识别并提取视频中最重要或最有趣的部分。
- 动作/事件定位:识别视频中特定动作或事件的开始和结束时间。
- 时序片段检索:基于文本或视觉查询定位视频中的特定时段。
- 时空理解任务:
- 对象跟踪:在视频中持续追踪特定对象的运动轨迹。
- 视频分割:将视频分割成不同的对象区域,捕捉视频中的运动物体。
- 时空定位:基于查询在视频的时空维度中定位相关片段。
3 Vid-LLM
-
3.1 Vid-LLMs 的分类
-
- 视频分析器 × LLM
这类模型将视频输入转换为文本分析,交由 LLM 处理。分析器生成视频的文字描述或识别结果,如字幕、动作标签、对象识别等文本信息。LLM 则负责对这些文字进行进一步的处理和推理,示例:LaViLa, VLog, VAST。 - 视频嵌入器 × LLM
视频嵌入器(如 CLIP 等视觉骨干网络)将视频输入转换为嵌入表示(embeddings),然后 LLM 对这些嵌入进行解码。这类模型无需先生成文本描述,直接处理视频的嵌入特征,通过视觉与语言的结合实现视频理解,示例:VideoLLM, Otter, Video-ChatGPT。 - (分析器 + 嵌入器) × LLM
这类混合方法同时使用视频分析器和视频嵌入器,将视频解析成文本分析和嵌入表示。LLM 会结合这两种输入完成复杂任务,示例:Vid2Seq, VideoChat。
- 视频分析器 × LLM
- LLM的5种角色:
- LLM 作为总结器(Summarizer):LLM 接收视频分析器输出的文本信息,生成简短摘要或回答特定问题。它通常是单向处理,从视频到分析器,再到 LLM。示例:LaViLa, VLog, VAST。
- LLM 作为管理者(Manager):LLM 负责调用多个视频分析器,协调整体系统的操作。它可以在多个回合中与视频分析器互动,生成复杂的结果。示例:ViperGPT, ChatVideo, HuggingGPT。
- LLM 作为文本解码器(Text Decoder):LLM 接收视频嵌入器的输出,并根据提示解码生成文本。它常用于问答、视频描述等任务,解码时无需精确时空理解。示例:VideoLLM, Otter, Video-LLaMA。
- LLM 作为回归器(Regressor):LLM 不仅生成文本,还可以输出连续值,如时间戳定位、对象轨迹等。它更像是执行回归任务,解决时空定位等精细化任务。示例:SeViLA, GroundingGPT, VTimeLLM。
- LLM 作为隐藏层(Hidden Layer):LLM 接收视频嵌入器的输入,并连接到任务特定的头部,进行回归任务或时空定位,但保留 LLM 的文本输出能力。示例:GPT4Video, OneLLM, VidDetours。
3.2 Vid-LLM的训练策略
1. 无训练方法(Training-free Vid-LLMs)
这一类方法充分利用大型语言模型的强大能力,尤其是 LLM 的零样本学习、上下文推理、提示学习等能力。无训练方法 的模型不需要对 LLM 进行任何微调,只需通过适当的提示(prompts)进行任务解决。这类方法的典型特点是:
-
信息已经被转化为文本:视频分析器将视频内容转换为文本描述,这些文本输入被 LLM 直接用于推理和生成任务,进而实现视频理解。
-
零样本与上下文学习能力:LLM 能够通过自然语言提示来推理视频内容,无需额外的训练或标注数据。
这种方法的优势在于快速部署和高效应用,尤其适合已经通过文本转化为易于理解的视频分析任务。大多数 视频分析器 × LLM 模型都是无训练的,因为视频被分析器转化为文本后,问题便转化为文本理解任务。
2. 微调方法
微调方法是 Vid-LLMs 中较为常见的训练策略,尤其是在 视频嵌入器 × LLM 模型中。视频嵌入器生成的视频特征嵌入需要与 LLM 结合,通常会通过微调适配这两者。微调的具体策略可以进一步分为以下几种:
2.1 LLM 全面微调(LLM Fully Fine-tuning)
在这一策略下,整个 LLM 的参数都会在监督学习的过程中进行更新,包括视频嵌入器的参数。这种方法允许模型完全适配目标任务,特别是在目标任务与模型的预训练任务差异较大的情况下,这种微调能够带来显著的性能提升。
-
全面适配:对模型的所有参数进行微调,确保模型能够在特定任务上获得最优表现。
-
计算资源消耗大:由于需要微调所有参数,这种方法的计算开销较高。
-
潜在风险:如果微调过度,模型可能会失去其原有的零样本学习和上下文推理能力。
2.2 连接适配器微调(Connective Adapter Fine-tuning)
在这种微调策略中,连接适配器(Connective Adapter)负责连接视频嵌入器和 LLM,将视频嵌入器生成的特征映射到 LLM 的输入空间。微调时,冻结 LLM 和视频嵌入器的参数,仅更新连接适配器的参数。
-
模态对齐:适配器的主要作用是进行模态对齐,将视频特征转换为 LLM 可以理解的文本特征。
-
轻量级微调:相比全面微调,这种方法只更新少量参数,计算资源开销小,同时保留了 LLM 原有的能力。
常用的连接适配器包括:
-
多层感知机(MLP)或线性层:简单的适配器,用于将视频嵌入映射到 LLM 的输入空间。
-
Q-Former:用于跨模态对齐,特别适合视频与语言的联合表示。
2.3 插入适配器微调(Insertive Adapter Fine-tuning)
插入适配器直接嵌入到 LLM 的内部层中,微调时,更新这些插入适配器的参数,而 LLM 的核心参数保持不变。插入适配器通常用于改变 LLM 的行为,使其更适应任务的需求。
-
适应新任务:通过插入适配器,LLM 能够适应不同类型的任务(如时空定位、回归任务等),生成更加细致的预测结果。
-
常见适配器技术:LoRA(Low-Rank Adaptation)是一种典型的插入适配器技术,专门用于在不更新模型核心参数的情况下进行轻量化的任务适配。
2.4 混合适配器微调(Fine-tuning with Hybrid Adapters)
这种策略结合了连接适配器和插入适配器,通常分为两阶段进行(也有一些方法会将两种适配器同时进行训练,以更高效地实现模态对齐和任务适配。):
-
第一阶段:首先对连接适配器进行微调,以实现视频模态和语言模态的对齐。
-
第二阶段:在模态对齐完成后,冻结连接适配器,开始对插入适配器进行微调,以适应特定的任务需求,如更复杂的视频理解任务。
4. 缺陷与未来方向
-
时空推理能力的提升
当前的 Vid-LLMs 虽然在多模态推理方面表现出色,但在时空信息的精确理解和推理上仍有不足。未来研究需要进一步增强模型对视频中的时间和空间关系的捕捉能力,特别是在长时序视频中的表现。这将有助于解决更复杂的任务,如时序事件检测和时空片段定位。 -
模型效率与资源优化
Vid-LLMs 的大规模训练和推理需要消耗大量的计算资源,因此提高模型的效率成为一个重要研究方向。未来的工作可以致力于设计更加轻量化的模型结构,以减少资源消耗,同时保持性能。这包括改进适配器微调方法、优化模型参数更新等技术。 -
多模态信息的深度融合
当前 Vid-LLMs 对多模态信息的融合(如视频、文本、音频等)仍有改进空间。未来的研究可以探索如何更好地在模型中深度融合多种模态的信息,提升模型对视频理解的全局感知能力。特别是对于那些涉及多个模态同时存在的复杂任务,如视频问答和跨模态检索,进一步提升融合策略尤为重要。 -
长视频处理与内存机制
Vid-LLMs 在处理长视频时存在挑战,特别是在捕捉视频中的长期依赖关系时。未来研究可以探索类似于记忆网络的机制,帮助模型保留视频中的关键信息,增强长视频的处理能力。这将提升模型在视频摘要、视频描述等任务中的表现。 -
跨领域应用的扩展
Vid-LLMs 的潜力不仅限于学术研究领域,未来应着重探索其在工业应用中的潜力,如自动驾驶、医疗影像分析、智能监控等。这些领域对视频理解有着非常高的需求,Vid-LLMs 可以通过与其他技术结合,为这些行业提供更高效、更智能的解决方案。 -
更具解释性的模型
未来的 Vid-LLMs 需要变得更加透明和可解释,以便用户更好地理解模型的推理过程。这不仅可以提升用户对模型决策的信任度,还能帮助研究人员进一步改进模型架构。 -
新型数据集与基准测试
目前的视频理解数据集和基准测试方法相对有限,未来应开发更多样化、更具挑战性的新型数据集,涵盖不同的任务和场景。此外,新的评估指标应更全面地衡量 Vid-LLMs 在各种视频理解任务中的表现,以推动模型的进一步发展。
(本文章由论文Video Understanding with Large Language Models: A Survey总结而来)