VLM之Bench:VBench的简介、核心组成部分、评估结果与可视化之详细攻略
目录
VBench的简介
2023年11月29日,VBench 项目旨在构建一个更全面、客观、细致的视频生成模型评估基准,为推动该领域发展提供有力支撑。它通过多维度评估、人工标注和开源等方式,解决了现有评估方法的不足,并为研究者提供了宝贵的参考数据和工具。VBench旨在创建一个全面、系统的视频生成模型基准测试套件,解决现有评估方法与人类感知不符以及缺乏指导未来发展的洞察力的难题。
VBench 通过构建一个分层、细粒度的评估维度体系,结合精心设计的提示集、评估方法集以及人工偏好标注,对视频生成模型进行多角度、客观且细致的评估。 VBench++ 则在此基础上扩展了对更多视频生成任务(如图像到视频)和模型可信度的评估。
VBench 具有全面性(16个维度)、与人类感知一致性、提供有价值的见解、多功能性以及完全开源等特点。
官网地址:VBench: Comprehensive Benchmark Suite for Video Generative Models
排行榜地址:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
1、VBench的意义与特点
VBench 项目是一个具有里程碑意义的视频生成模型基准测试套件。它通过构建一个全面、细粒度且与人类感知高度一致的评估体系,解决了该领域长期存在的评估难题。VBench 和其扩展版本 VBench++ 不仅提供了客观、全面的模型评估结果,还为研究者提供了宝贵的资源和工具,推动了视频生成技术的快速发展。其开源特性和持续更新机制,也确保了其在社区中的长期影响力。 VBench 的成功,为其他多模态生成模型的评估提供了重要的参考和借鉴。
VBench 项目完全开源,包括所有提示、评估方法、生成视频和人工偏好标注。VBench 持续更新,不断添加新的视频生成模型到排行榜中。VBench 的开源性和持续更新机制,确保了其长期价值和社区参与度,推动了视频生成领域的共同进步。
2、VBench 的核心组成部分
VBench 的核心组成部分构成一个完整的评估流程,从提示设计、视频生成、自动评估到人工验证,确保评估结果的可靠性和客观性。
>> 评估维度套件 (Evaluation Dimension Suite):将“视频生成质量”分解成多个明确定义的维度,例如主体身份不一致性、运动平滑度、时间闪烁和空间关系等,共计16个维度。这使得评估更加细粒度,可以揭示模型的优势和劣势。
>> 提示集 (Prompt Suite):为每个维度和内容类别精心设计的测试用例,用于激发模型生成视频。
>> 生成视频 (Generated Videos):来自多个视频生成模型的样本视频,用于评估。
>> 评估方法套件 (Evaluation Method Suite):为每个评估维度专门设计的自动客观评估方法或指定流程。
>> 人工偏好标注 (Human Preference Annotation):对每个维度的生成视频进行的人工偏好标注,用于验证基准测试结果与人类感知的一致性。
3、VBench++ 的扩展
VBench++ 在 VBench 的基础上,扩展了评估范围和功能,使其能够更全面地评估视频生成模型,特别是图像到视频模型,并考虑了模型的可信度问题。
>> 支持更多任务:VBench++ 扩展了对文本到视频和图像到视频等多种视频生成任务的支持。
>> 自适应图像套件:引入了高质量的自适应图像套件,以应对不同图像到视频生成设置下的公平评估。
>> 评估模型可信度:除了评估技术质量,VBench++ 还评估了生成模型的可信度,提供了更全面的模型性能视图。
VBench的评估结果与可视化
VBench 通过多种可视化方式,清晰地呈现了不同模型在不同维度上的性能差异,方便用户快速了解模型的优缺点,并进行横向比较。
1、排行榜
VBench 提供了多个排行榜,分别展示了最新顶级模型、开源模型和闭源模型在各个维度上的评估结果。
2、可视化图表
使用图表直观地展示了模型在不同维度上的性能,并对结果进行了归一化处理,方便比较。
3、内容类别分析
对不同内容类别下的模型性能进行了分析。