Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频

🎬 Vript: Refine Video Captioning into Video Scripting

将传统视频标注细化为视频脚本标注

Github地址:https://github.com/mutonix/Vript

Vript是一个带有12K个注释的高分辨率视频(超过400k片段)的细粒度视频文本数据集。该数据集的注释受到视频脚本的启发。如果我们想做一个视频,我们必须首先写一个脚本来组织如何拍摄视频中的场景。为了拍摄一个场景,我们需要决定内容,拍摄类型(中景,特写等),以及相机如何移动(平移,倾斜等)。因此,受到视频脚本格式的启发,我们以视频脚本的方式对视频进行注释。与之前的视频文本数据集不同,我们在不丢弃任何场景的情况下对整个视频来进行密集注释,每个场景都有一个约145个单词的标题。除了视觉模态,我们还将画外音转录成文字,并与视频标题放在一起,为视频注释提供更多的背景信息。

在这里插入图片描述

此外,我们提出了Vript-Bench,这个新的benchmark包括三个具有挑战性的视频理解任务:

  • Vript-CAP (Caption): 一个测试模型描述视频能力的benchmark。相比之前的benchmark,如MSR-VTT 以及Panda-70M ,它们的标注都比较短,一般只有一到两句话,对于目前的视频多模态模型来说,已经过于简单。V
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值