Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频

Mutonix6

于 2024-04-16 16:17:29 发布

阅读量789

点赞数 7

分类专栏：人工智能文章标签：自然语言处理计算机视觉人工智能 nlp AIGC chatgpt gpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mutonix6/article/details/137829333

版权

🎬 Vript: Refine Video Captioning into Video Scripting

将传统视频标注细化为视频脚本标注

Github地址：https://github.com/mutonix/Vript

Vript是一个带有12K个注释的高分辨率视频(超过400k片段)的细粒度视频文本数据集。该数据集的注释受到视频脚本的启发。如果我们想做一个视频，我们必须首先写一个脚本来组织如何拍摄视频中的场景。为了拍摄一个场景，我们需要决定内容，拍摄类型(中景，特写等)，以及相机如何移动(平移，倾斜等)。因此，受到视频脚本格式的启发，我们以视频脚本的方式对视频进行注释。与之前的视频文本数据集不同，我们在不丢弃任何场景的情况下对整个视频来进行密集注释，每个场景都有一个约145个单词的标题。除了视觉模态，我们还将画外音转录成文字，并与视频标题放在一起，为视频注释提供更多的背景信息。

在这里插入图片描述

此外，我们提出了Vript-Bench，这个新的benchmark包括三个具有挑战性的视频理解任务：

Vript-CAP (Caption): 一个测试模型描述视频能力的benchmark。相比之前的benchmark，如MSR-VTT 以及Panda-70M ，它们的标注都比较短，一般只有一到两句话，对于目前的视频多模态模型来说，已经过于简单。V

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。