人工智能
文章平均质量分 69
Mutonix6
这个作者很懒,什么都没留下…
展开
-
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词的标注 | 文生视频,多模态
Vript是一个带有12K个注释的高分辨率视频(超过400k片段)的细粒度YouTube视频文本数据集。原创 2024-04-17 11:52:47 · 426 阅读 · 0 评论 -
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
Vript是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标注。除了视觉信息,还转录了画外音,来提供额外背景信息。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。原创 2024-04-16 16:17:29 · 674 阅读 · 0 评论