视频生成模型权威评测基准VBench上线司南评测集社区

最新推荐文章于 2025-03-06 11:47:11 发布

司南评测

最新推荐文章于 2025-03-06 11:47:11 发布

阅读量885

点赞数 18

分类专栏：评测数据集文章标签：人工智能大模型评测视频生成 OpenCompass 司南评测 VBench 司南评测集社区

本文链接：https://blog.csdn.net/OpenCompass/article/details/145903376

版权

评测数据集专栏收录该内容

7 篇文章

订阅专栏

视频生成模型评测基准 VBench，以其全面且细致的评测体系及评估效率，被国内外众多大模型厂商、研究机构及科技媒体所采用。VBench 榜单上的评分，已成为衡量视频生成模型性能的重要指标，并为模型能力提升提供了方向参考。

近日，VBench 评测基准已在司南评测社区集上线，诚邀开发者下载使用。本篇文章将详细解读 VBench 系列工作。

在人工智能蓬勃发展的当下，视频生成模型广泛应用于内容创作、娱乐、安防等领域，从影视特效制作到短视频生产，再到智能监控，其技术突破不断重塑人们的生活与工作模式。但随着各类视频生成模型不断涌现，如何精准评估其性能，成为研究者和从业者面临的关键问题。

到底哪个视频生成模型性能最强？
每个模型各自有什么特长？
AI 视频生成领域目前还有哪些值得关注的问题待解决？

在此背景下，上海人工智能实验室、南洋理工大学S-Lab、香港中文大学、南京大学联合发布了视频生成模型评测体系 VBench，其相关研究论文成功入选 CVPR 2024 Highlight 论文名单。

VBench 不仅包含了 16 个分层和解耦的评测维度，确保了评估的全面性和细致度，还通过贴近人类感知的评测方法，提高了评估结果的真实性和可靠性。其开源的代码及提示词体系，更是促进了技术的透明度和社区的参与，加速了视频生成技术的创新与迭代。

最新发布的 VBench++ 支持更广泛的视频生成任务，包括文本生成视频和图像生成视频，并配有一套自适应的图像套件，以便在不同的设置下进行公平评估。不仅评估技术质量，还评估生成模型的可信度，从而提供对模型性能的全面评估。

VBench 系列工作不仅在学术界引起了广泛关注，也在产业界产生了深远影响。VBench 榜单目前已经成为视频生成模型领域权威榜单，榜单内容多次被知名视频模型厂商、头部科技媒体引用，能否在 VBench 榜单上名列前茅，已成为衡量视频生成模型性能的重要参考标准，深刻影响着行业的技术发展方向和产品研发策略。

VBench 评测基准现已在司南评测社区集上线，欢迎大家使用。

https://hub.opencompass.org.cn/dataset-detail/VBench

VBench 论文链接：

https://arxiv.org/abs/2311.17982

VBench++ 论文链接：

https://arxiv.org/abs/2411.13503

开源链接：

https://github.com/Vchitect/VBench

评测结果更符合人类感知

针对每个细分维度，联合团队测试了 VBench 评测结果与人工评测结果之间的相关度，发现 VBench 评测方法与人类感知具备较高的一致性。下图中，横轴代表不同维度的人工评测结果，纵轴则展示了 VBench 方法自动评测的结果，可见 VBench 在各个维度均与人类感知高度对齐。

全面开源，简单部署，一键安装

目前，VBench 已全面开源，且支持一键安装。详情可访问：https://github.com/Vchitect/VBench

同时，包含不同能力评测基准和不同场景内容评测基准的提示词体系（Prompt List）同步开源。详情可访问：https://github.com/Vchitect/VBench/tree/master/prompts

为视频生成模型能力提升带来有价值参考

不仅可对现有模型进行评测，VBench 还可以发现不同模型中可能存在的各种问题，为未来视频生成模型发展提供有价值的指标参考。基于 VBench 的评测结果，联合团队在论文中为视频生成模型能力提升提出了系列策略：

1、“时序连贯性”及“视频的动态程度”应同时提升

时序连贯性（Subject Consistency、Background Consistency、Motion Smoothness）与视频中运动的幅度（Dynamic Degree）之间有一定的权衡关系。部分模型在背景一致性和动作流畅度方面表现较好，但在动态程度方面得分较低，而另一部分模型则相反。

2、分场景内容进行评测，发掘不同模型潜力

部分模型在不同场景上表现出的性能存在较大差异，需深度挖掘模型在某个能力维度的上限，进而针对性地提升短板。

3、复杂运动类别中的时空表现均不佳

在空间上复杂度高的类别，模型美学质量维度得分往往低。这表明当前模型在处理时序建模方面仍然存在一定的不足，时序上的建模局限可能会导致空间上的模糊与扭曲，从而导致视频在时间和空间上的质量都不理想。

4、对于难生成的类别，提升数据量收益不大

研究人员对视频数据集 WebVid-10M 进行了统计，发现其中约有 26% 的数据与 “Human”有关，占比最高。然而，在评估结果中，“Human”类别却是模型表现最差的场景。表面在复杂的生成类别中，仅仅增加数据量可能不会对性能带来显著的改善。或许可通过引入相关的先验知识或控制，来指导模型学习。

5、提升数据质量应优先于数据量

“Food”类别在 WebVid-10M 中仅占据 11%，但在评测中几乎总是拥有最高的美学质量分数。这意味着，在百万量级数据的基础上，筛选或提升数据质量，比增加数据量更会对模型能力带来帮助。

6、待提升的能力：准确生成多物体，表现物体间的关系

多数视频生成模型在多对象生成（Multiple Objects）和空间关系（Spatial Relationship）方面不及图片生成模型，提升组合能力在未来研究中具备重要性。