VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Ming_Chens

已于 2024-08-06 20:07:35 修改

阅读量831

点赞数 19

分类专栏：多模态大模型文章标签：人工智能

于 2024-08-06 19:58:45 首次发布

本文链接：https://blog.csdn.net/s_m_c/article/details/140964709

版权

多模态大模型专栏收录该内容

26 篇文章 0 订阅

订阅专栏

发表时间：17 Jun 2024

论文链接：https://arxiv.org/pdf/2406.07476

作者单位：DAMO Academy, Alibaba Group

Motivation：当前的 Video-LLM 受到影响其性能和实用性的几个限制。首先，由于这些模型在融合不同帧的特征方面的能力有限，这些模型往往难以有效地处理时间动态。这导致未能充分利用可用的时间信息，阻碍了它们根据过去和现在的数据准确预测未来事件的能力。其次，音频流的集成经常被忽视，尽管音频是上下文线索的丰富来源，这对完整的场景理解至关重要。这种忽视导致模型执行综合多模态分析的能力存在重大差距。这些限制说明了需要更先进的Video-LLM，它可以在不影响处理效率或上下文完整性的情况下处理多模态视频数据的复杂性.

解决方法：在本文中，我们提出了VideoLLaMA 2，一组视频大型语言模型(Video-LLM)，旨在增强视频和面向音频任务的时空建模和音频理解。VideoLLaMA 2 包含一个定制的时空卷积 (STC) 连接器，它有效地捕获视频数据的复杂空间和时间动态。我们通过联合训练将音频分支集成到模型中，从而通过无缝地结合音频线索来丰富模型的多模式理解能力。

模型结构：

Vision-Language Branch:

choose imagelevel CLIP (ViT-L/14)as our vision backbone.
我们没有 VideoLLaMA 1中的 Q-former，而是提出了一种用于时空表示学习的 VideoLLaMA 2 中的时空卷积连接器 (STC Connector)。
STC Connector 可以比 Q-former 更有效地保留空间和时间局部细节，同时不会产生大量视频标记。

Audio-Language Branch:

最初，音频信号经过预处理步骤，将它们转换为具有 128 个频率箱的 fbank 频谱图。为了有效地利用这些预处理的音频信号，我们集成了 BEAT ，这是一种cutting-edge音频编码器，以其捕获详细音频特征和时间动态的特殊能力而闻名。
然后通过具有两个线性层的 MLP 块处理这些特征以与 LLM 的维度对齐，从而在结合视觉和声学模态时提供对视频内容的更有凝聚力的理解。通过将 BEAT 合并到 VideoLLaMA 中，我们解决了同步视听数据点的挑战。编码器捕获时间动态的能力与视觉分支中使用的STC连接器一致，确保了视听特征的无缝集成。

实现方式：

Training:

Video-Language Training:

Pre-training:对于预训练阶段，我们利用来自多个可公开访问数据库的大规模、弱标记的、网络爬取的图像-文本和视频-文本对数据集。在这个阶段，视觉编码器和大型语言模型被冻结，只优化连接器。输入视频帧均匀采样并调整为 336 × 336 像素。训练目标是最小化文本标记的交叉熵损失。
Multi-task Fine-tuning:在多任务微调的第二阶段，我们使用视频文本和图像文本数据结合高质量、细粒度的多模态注释。VideoLLaMA 2 同时在四个任务上进行了微调。在这个阶段，视觉编码器被冻结，我们优化了语言模型和时空连接器。训练目标与预训练阶段保持一致。

Audio-Language Training:

Pre-training: 在初始阶段，我们专注于通过利用 WavCaps (Mei et al., 2023) 的音频理解的基础方面，这是一个包含大约 400,000 个音频样本的综合数据集。该数据集是我们的模型学习音频数据中复杂模式的关键基础，从而为更复杂的音频语言任务准备它们。在这个阶段，音频编码器和大型语言模型 (LLM) 被冻结，只专注于音频projection。主要的训练目标是最小化文本响应的下一个令牌预测损失，增强模型理解和将音频数据映射到文本表示的能力。这种方法确保音频处理组件有效地利用优化的语言模型来实现更精确的音频-文本对齐。
Multi-task Fine-tuning: 音频语言训练的第二阶段旨在通过多任务学习来增强我们模型的多功能性和适用性，涉及针对不同音频处理任务量身定制的各种数据集。在这个阶段，音频编码器和音频投影仪被优化，LLM保持冻结，保持一致的训练目标，以最小化预训练阶段建立的文本标签交叉熵损失。

Audio-Video Joint Training:

第三阶段将重点转移到音频和视觉模式的集成上，旨在利用和理解多模态感知这两个关键方面之间的相互作用。在这个阶段，从视频中提取音频轨迹并切割以对齐视频剪辑。然后，这些音频片段被截断或填充到与音频语言转换阶段相同的持续时间。对于缺乏音频轨道的视频，我们用零填充波形，以确保所有数据样本的一致性。在优化音频/视频投影仪以及解冻的LLM的同时，视频编码器和音频编码器保持冻结。训练目标与指令调整阶段对齐，确保我们的多模态训练方法中的连贯和有效的进展。通过有效利用同步视听数据，VideoLLaMA 2 对多模态内容进行了更深入的理解，从而提高了它在一系列多媒体分析任务上的性能。

实验：我们对纯音频问答 (AQA) 任务进行了广泛的实验，然后是开放式音频视频问答任务，以评估 VideoLLaMA 2 的音频理解能力.