【论文笔记】VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

小嗷犬

已于 2024-10-08 17:10:52 修改

阅读量600

点赞数 13

分类专栏：论文笔记文章标签：论文阅读语言模型多模态大模型

于 2024-10-08 17:08:19 首次发布

本文链接：https://blog.csdn.net/qq_63585949/article/details/142761883

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
作者: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
arxiv: https://arxiv.org/abs/2406.07476

基本信息

摘要

本文介绍了VideoLLaMA 2，一套旨在提升视频和音频任务中时空建模和音频理解的Video Large Language Models（视频-LLMs）。

在继承前代的基础上，VideoLLaMA 2引入了定制的时空卷积（STC）连接器，能够有效捕捉视频数据的复杂时空动态。

此外，我们通过联合训练将音频分支整合到模型中，从而通过无缝融合音频线索丰富了模型的多模态理解能力。

在多项选择视频问答（MC-VQA）、开放式视频问答（OE-VQA）和视频字幕（VC）任务上的全面评估表明，VideoLLaMA 2在开源模型中持续取得具有竞争力的成绩，甚至在某些基准测试中接近一些专有模型。

此外，VideoLLaMA 2在仅音频和音频视频问答（AQA & OE-AVQA）基准测试中相对于现有模型表现出合理的改进。

这些进步凸显了VideoLLaMA 2在多模态理解方面的优越性能，为智能视频分析系统设定了新的标准。

所有模型均已公开，以促进进一步的研究。

方法

模型结构

VideoLLaMA 2的整体流程

Visual Encoder: ViT-L/14@336
Audio Encoder: BEATs
LLM: Mistral-Instruct、Mixtral-Instruct

对于视觉-语言分支，视频帧逐帧编码为特征，通过作者的STC连接器进行处理，然后这些特征被输入到大型语言模型中，根据文本提示生成响应。

对于音频-语言分支，音频信号首先被转换为对数梅尔频谱图，然后编码以提取听觉特征。这些特征随后通过多层感知器（MLP）块进行处理，以使音频模态与大型语言模型对齐。

STC connector

The pipeline of STC connector

视频帧首先逐帧编码为特征帧，然后通过作者提出的STC连接器（两个空间交互模块和一个时空聚合模块）进行处理。作者采用RegStage实现“空间交互（Spatial interaction）”，并使用3D卷积实现“时空聚合（Spatial-Temporal Aggregation）”。

在设计视频-语言连接器时，作者主要遵循三个原则：

保持输出视觉标记的空间-时间顺序；
减少空间-时间标记的数量；
缓解空间-时间下采样过程中的信息损失。

基于以上三个原则，作者做出了以下设计：

根据第一个原则，作者避免使用重采样架构，因为重采样操作不能保证空间-时间顺序的保留。这可能导致次优收敛，因为自回归模型（即LLM骨干）高度依赖于训练和推理之间的一致标记顺序。因此，作者在构建连接器时只考虑卷积或池化操作。
根据第二个原则，作者插入3D下采样算子来压缩空间-时间标记。
为了补充空间-时间下采样引起的信息损失，作者在空间-时间下采样前后插入RegStage（一个强大的卷积块）。

实证研究STC连接器设计选择：空间交互（RegStage）、时空聚合（Downsample）。

为了实证研究上述设计的有效性，作者使用Video-LLaVA（Lin等，2023a）的训练数据建立了一个快速但合理的架构搜索。

如图所示，3D卷积与ReStage块（即绿色行）结合，形成了本文的STC连接器，在平均性能方面表现最佳。另一个有趣的发现是，几乎所有3D下采样设计在Egoschema上表现优于2D设计，这表明帧级特征的早期融合对长视频理解有益。

# STC connector的PyTorch伪代码
import torch.nn as nn
from timm.models.regnet import RegStage


class STCConnector(nn.Module):
    def __init__(self, config, depth, mlp_depth):
        # Temporal and spatial downsampling factor
        td, sd = config.td, config.sd
        # Input and output hidden dimension
        in_size, out_size = config.in_size, config.out_size
        # The first RegStage block
        self.s1 = RegStage(depth=depth, in_chs=in_size, out_chs=out_size)
        # Conv3D downsampler
        self.downsampler = nn.Conv3d(
            in_channels=out_size, out_channels=out_size, kernel_size=(td, sd, sd)
        )
        # The second RegStage block
        self.s2 = RegStage(depth=depth, in_chs=out_size, out_chs=out_size)
        self.proj = build_mlp(mlp_depth, out_size, out_size)

        def forward(self, x):
            x = self.s1(x)
            x = self.downsampler(x)
            x = self.s2(x)
            x = self.proj(x)
            return x

训练

Video-Language Training

预训练

Video-Language Training 预训练数据集

数据集
- 视频-文本: Panda-70M、VIDAL-10M、WebVid-10M、InternVid-10M
- 图像-文本: CC-3M、DCI
模型
- 🔥 STC connector
- ❄️ Visual Encoder、LLM

多任务微调

Video-Language Training 多任务微调数据集

数据集
- 视频-文本
  - 视频描述: VideoChat, 内部数据
  - 视频分类: Kinetics-710, SthSthv2
  - VQA: NExTQA, CLEVRER, EgoQA, Tgif, WebVidQA, RealworldQA, Hm3d
  - 指令微调: Valley, VideoChatGPT, VideoChat, VTimeLLM, VideoChat2
- 图像-文本
  - 图像描述: ShareGPT4V
  - VQA: LLaVA
  - 指令微调: LLaVA
模型
- 🔥 LLM、STC connector
- ❄️ Visual Encoder

Audio-Language Training

预训练

数据集: WavCaps
模型
- 🔥 Audio Projection
- ❄️ Audio Encoder、LLM

多任务微调

数据集
- 音频问答: ClothoAQA
- 指令微调: WavCaps、AudioCaps、Clotho
- 音乐字幕: MusicCaps
- 音频分类: UrbanSound8k（城市环境）、ESC50、TUT2017、VocalSound（人声）
模型
- 🔥 Audio Projection、Audio Encoder
- ❄️ LLM

Audio-Video Joint Trainng

数据集:
- 音频-视觉问答: AVQA、AVQA-music
- 音频-视觉对话: AVSD
- 音频-视觉分类: VGGSound
- 指令微调: VideoInstruct100K、WebVid subset
- 从视频中提取音频轨道并将其与视频片段对齐（截断或填充）；对于缺少音频轨道的视频，用零填充波形。
模型
- 🔥 Visual Projection、Audio Projection、LLM
- ❄️ Visual Encoder、Audio Encoder