ECCV 2024 Oral | 王东林团队提出PiTe:时空对齐视频大模型

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

f2b4ea384bd9360f215385d567f267c3.png

转载自:西湖大学工学院SOE

大型语言模型的发展进一步弥合了图像和文本之间的鸿沟,但视频复杂的时空数据结构特性使理解视频内容具有挑战。近期关于多模态大模型的相关研究工作通常将视觉数据(如图像)的特征对齐到语言特征的潜在空间中,以充分利用大模型的理解和推理能力。

通用大模型成功的关键在于如何有效地将大语言模型卓越的理解、推理和生成能力推广到更多场景。对于多模态视频理解而言,在空间和时间维度上对齐不同模态的信息至关重要。

5c80526603ec757494a899d776d41def.png

图1. 大型视频语言模型训练范式比较

为了弥合不同模态间的鸿沟,本文提出了PiTe框架使用物体移动轨迹指导模型在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐

如图1所示,通过向模型注入视频描述文本中提到的目标物体在视频中的移动轨迹,其可以细粒度地学习到文本到视觉像素级对齐信息,并且能够增强其有依据地生成输出的能力。为实现细粒度的视频语言跨模态对齐,本文设计自动标注流程并以此构建了一个多模态预训练数据集PiTe-143k,该数据集提供了视频和描述文本中共同出现的所有目标的像素级移动轨迹。

497c224fe5154227368ab061f2c93164.gif

eea358ca86f203d0387048596f29b15a.png

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

论文:https://arxiv.org/abs/2409.07239

代码地址:https://github.com/yliu-cs/PiTe

该论文被计算机视觉顶级会议ECCV 2024录用,并入选口头报告(Oral,比例不超过3%)。论文由王东林实验室博士生刘阳、丁鹏翔担任第一作者,王东林教授为通讯作者,西湖大学为通讯单位。

ECCV会议是世界顶级的计算机视觉三大顶级会议之一,录取论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇,论文录取率为27.9%,其中口头报告比例不超过3%。会议定于2024年9月29日至10月4日在意大利米兰举行。

本文的贡献包括:

1)设计自动标注流程构建了一个大规模多模态视频语言数据集PiTe-143k,该数据集提供了视频和描述文本中共同出现的所有物体的像素级细粒度移动轨迹;

2)通过在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐,提出了一个新颖的大型视频语言模型PiTe。

数据集构建

f96d82b314c0feb4a756bb2f004cf61a.png图2. 数据自动标注流程

从图2中可以看出,PiTe-143k数据集(基于InternVid-10M-FLT数据集)的标注主要分为两个阶段。

第一阶段是引用语义分割,此阶段首先通过成分句法分析工具SuPar抽取出视频文本描述中所有的名词词组,再利用多模态大模型GLaMM依据这些词组获取到其在视频帧中的目标物体分割掩码。此阶段的目标是构建视频和语言间非常细粒度的联系。

第二阶段是物体点追踪,在第二阶段中使用全像素点追踪模型DOT根据上一阶段获取到的物体分割掩码追踪其在视频片段内的完整移动轨迹。此阶段的目标是将前一阶段构建的跨模态连接扩展出视频特有的时序维度。

算法框架

988442471022c1fa748e7ef20a2b20e1.png

图3. 算法的框架

从图3中可以看出,PiTe模型框架主要包含视觉编码器、视觉适配器和大语言模型。其训练主要分为三个阶段。

第一阶段是引用表达定位,在大语言模型输出图像描述时使其通过定位映射器同时输出每个词元在图像中存在的位置坐标。这一阶段的目标是训练视觉适配器,使其能够将视觉特征与大语言模型的语义空间对齐。

第二阶段是像素时序对齐,与第一阶段训练方式类似,在大语言模型输出视频描述时使其通过轨迹映射器同时输出每个名词词组词元在视频中存在的位置坐标。此阶段的目标是训练大语言模型理解视频中的连续帧。

第三阶段是视频问答,此阶段按照指令微调范式训练模型,使其能够遵循人类的指令,以实现更准确和更具泛化的视频理解能力。

实验结果

9141897bd95818f5b9d9491afdbaf74b.png

图4. 视频问答实验对比结果

444eff735cb9ae7553f469504cf7aec8.png

图5. 时序定位和密集描述实验对比结果

如图4、图5所示,本文在视频问答、时序定位和密集描述三个任务上进行了性能对比测试,PiTe模型均表现出了显著的性能优势,表明像素级细粒度的对齐方案能够有效地帮助大语言模型理解视频时空内容。

eed684c0cc96716b4fa1090cfdf51c8e.png

图6. 样例展示

如图6所示,PiTe模型不仅能够对询问指令给出精确的回答,而且还能够提供更加详细和准确的视频信息来丰富输出内容,而且拥有理解指令和捕捉事件的能力使其能够在视频中精确地界定事件时间边界。

总结

PiTe模型基于所构建的PiTe-143数据集,通过学习视频描述文本中提到的目标物体在视频中的移动轨迹,能够细粒度地学习到文本到视觉像素级对齐信息,增强了其有依据地生成输出的能力。

实验结果验证了基于轨迹时空对齐训练方案的PiTe模型的视频细节和时空内容理解能力。

PiTe模型所具备的强大视频理解能力为后续具身智能的视觉感知工作提供了基础,其蕴含的物体移动轨迹信息也为设计新颖的视觉语言动作模型提供了新思路。

论文题目:PiTe: Pixel-Temporal Alignment for Large Video-Language Model

论文:https://arxiv.org/abs/2409.07239

代码地址:https://github.com/yliu-cs/PiTe

作者:刘阳,丁鹏翔,黄思腾,张敏,赵晗,王东林*

 来 源  | 王东林实验室  撰 稿  | 刘阳

 编 辑  | 冯晨希   校 对  | 苏凌菲

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
### ECCV 2024 扩散模型研究与会议信息 #### 关于ECCV 2024的概述 欧洲计算机视觉国际会议(ECCV)是计算机视觉领域的重要学术活动之一。ECCV 2024已公布录用论文名单,共有2395篇论文被接受,录用率为18%[^2]。 #### 扩散模型的研究进展 扩散模型作为一种强大的生成模型,在图像编辑、生成等领域取得了显著成果。在ECCV 2024中,多个团队提出了新的算法或改进现有方法来增强扩散模型的表现力和效率。这些工作不仅限于理论上的创新,还包括实际应用中的优化和技术实现。 #### 参与方式 对于希望参与到这一前沿话题讨论的人士来说,可以通过以下几种途径: - **提交论文**:如果已经完成了相关研究成果,则可以考虑向未来的ECCV或其他顶级会议投稿。 - **关注最新动态**:通过官方渠道获取最新的日程安排以及专题研讨会的信息;也可以加入一些在线社区如GitHub项目页面或者Slack群组等地方与其他研究人员交流心得经验。 - **参加线上/线下活动**:许多重要的发现往往是在非正式场合产生的——比如海报展示环节或是社交聚会期间发生的对话里。因此积极出席各类形式的工作坊、教程讲座等活动有助于建立人脉关系网并获得灵感启发。 ```python # 示例代码用于说明如何查询ECCV官网获取更多信息 import requests from bs4 import BeautifulSoup def get_eccv_info(url='https://eccv2024.org'): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') return str(soup.find('div', {'class': 'main-content'})) print(get_eccv_info()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值