ECCV 2024 Oral | 王东林团队提出PiTe：时空对齐视频大模型

最新推荐文章于 2025-05-23 20:21:40 发布

Amusi（CVer）

最新推荐文章于 2025-05-23 20:21:40 发布

阅读量890

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247608209&idx=2&sn=7f1eb014453f58777acf217abce9f417&chksm=f860562ff2e110e439b7c3982e34699a028d1b3aaa48446a022d88145f542bfa89dd820b1b1b&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：西湖大学工学院SOE

大型语言模型的发展进一步弥合了图像和文本之间的鸿沟，但视频复杂的时空数据结构特性使理解视频内容具有挑战。近期关于多模态大模型的相关研究工作通常将视觉数据（如图像）的特征对齐到语言特征的潜在空间中，以充分利用大模型的理解和推理能力。

通用大模型成功的关键在于如何有效地将大语言模型卓越的理解、推理和生成能力推广到更多场景。对于多模态视频理解而言，在空间和时间维度上对齐不同模态的信息至关重要。

图1. 大型视频语言模型训练范式比较

为了弥合不同模态间的鸿沟，本文提出了PiTe框架，它使用物体移动轨迹指导模型在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐。

如图1所示，通过向模型注入视频描述文本中提到的目标物体在视频中的移动轨迹，其可以细粒度地学习到文本到视觉像素级对齐信息，并且能够增强其有依据地生成输出的能力。为实现细粒度的视频语言跨模态对齐，本文设计自动标注流程并以此构建了一个多模态预训练数据集PiTe-143k，该数据集提供了视频和描述文本中共同出现的所有目标的像素级移动轨迹。

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

论文：https://arxiv.org/abs/2409.07239

代码地址：https://github.com/yliu-cs/PiTe

该论文被计算机视觉顶级会议ECCV 2024录用，并入选口头报告（Oral，比例不超过3%）。论文由王东林实验室博士生刘阳、丁鹏翔担任第一作者，王东林教授为通讯作者，西湖大学为通讯单位。

ECCV会议是世界顶级的计算机视觉三大顶级会议之一，录取论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇，论文录取率为27.9%，其中口头报告比例不超过3%。会议定于2024年9月29日至10月4日在意大利米兰举行。

本文的贡献包括：

1）设计自动标注流程构建了一个大规模多模态视频语言数据集PiTe-143k，该数据集提供了视频和描述文本中共同出现的所有物体的像素级细粒度移动轨迹；

2）通过在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐，提出了一个新颖的大型视频语言模型PiTe。

数据集构建

图2. 数据自动标注流程

从图2中可以看出，PiTe-143k数据集（基于InternVid-10M-FLT数据集）的标注主要分为两个阶段。

第一阶段是引用语义分割，此阶段首先通过成分句法分析工具SuPar抽取出视频文本描述中所有的名词词组，再利用多模态大模型GLaMM依据这些词组获取到其在视频帧中的目标物体分割掩码。此阶段的目标是构建视频和语言间非常细粒度的联系。

第二阶段是物体点追踪，在第二阶段中使用全像素点追踪模型DOT根据上一阶段获取到的物体分割掩码追踪其在视频片段内的完整移动轨迹。此阶段的目标是将前一阶段构建的跨模态连接扩展出视频特有的时序维度。

算法框架

图3. 算法的框架

从图3中可以看出，PiTe模型框架主要包含视觉编码器、视觉适配器和大语言模型。其训练主要分为三个阶段。

第一阶段是引用表达定位，在大语言模型输出图像描述时使其通过定位映射器同时输出每个词元在图像中存在的位置坐标。这一阶段的目标是训练视觉适配器，使其能够将视觉特征与大语言模型的语义空间对齐。

第二阶段是像素时序对齐，与第一阶段训练方式类似，在大语言模型输出视频描述时使其通过轨迹映射器同时输出每个名词词组词元在视频中存在的位置坐标。此阶段的目标是训练大语言模型理解视频中的连续帧。

第三阶段是视频问答，此阶段按照指令微调范式训练模型，使其能够遵循人类的指令，以实现更准确和更具泛化的视频理解能力。

实验结果

图4. 视频问答实验对比结果

图5. 时序定位和密集描述实验对比结果

如图4、图5所示，本文在视频问答、时序定位和密集描述三个任务上进行了性能对比测试，PiTe模型均表现出了显著的性能优势，表明像素级细粒度的对齐方案能够有效地帮助大语言模型理解视频时空内容。

图6. 样例展示

如图6所示，PiTe模型不仅能够对询问指令给出精确的回答，而且还能够提供更加详细和准确的视频信息来丰富输出内容，而且拥有理解指令和捕捉事件的能力使其能够在视频中精确地界定事件时间边界。

总结

PiTe模型基于所构建的PiTe-143数据集，通过学习视频描述文本中提到的目标物体在视频中的移动轨迹，能够细粒度地学习到文本到视觉像素级对齐信息，增强了其有依据地生成输出的能力。

实验结果验证了基于轨迹时空对齐训练方案的PiTe模型的视频细节和时空内容理解能力。

PiTe模型所具备的强大视频理解能力为后续具身智能的视觉感知工作提供了基础，其蕴含的物体移动轨迹信息也为设计新颖的视觉语言动作模型提供了新思路。

论文题目：PiTe: Pixel-Temporal Alignment for Large Video-Language Model

论文：https://arxiv.org/abs/2409.07239

代码地址：https://github.com/yliu-cs/PiTe

作者：刘阳，丁鹏翔，黄思腾，张敏，赵晗，王东林*

来源 | 王东林实验室撰稿 | 刘阳

编辑 | 冯晨希校对 | 苏凌菲

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看