视频生成模型权威评测基准VBench上线司南评测集社区

视频生成模型评测基准 VBench,以其全面且细致的评测体系及评估效率,被国内外众多大模型厂商、研究机构及科技媒体所采用。VBench 榜单上的评分,已成为衡量视频生成模型性能的重要指标,并为模型能力提升提供了方向参考。

近日,VBench 评测基准已在司南评测社区集上线,诚邀开发者下载使用。本篇文章将详细解读 VBench 系列工作。

在人工智能蓬勃发展的当下,视频生成模型广泛应用于内容创作、娱乐、安防等领域,从影视特效制作到短视频生产,再到智能监控,其技术突破不断重塑人们的生活与工作模式。但随着各类视频生成模型不断涌现,如何精准评估其性能,成为研究者和从业者面临的关键问题。

  • 到底哪个视频生成模型性能最强?

  • 每个模型各自有什么特长?

  • AI 视频生成领域目前还有哪些值得关注的问题待解决?

在此背景下,上海人工智能实验室、南洋理工大学S-Lab、香港中文大学、南京大学联合发布了视频生成模型评测体系 VBench,其相关研究论文成功入选 CVPR 2024 Highlight 论文名单。

VBench 不仅包含了 16 个分层和解耦的评测维度,确保了评估的全面性和细致度,还通过贴近人类感知的评测方法,提高了评估结果的真实性和可靠性。其开源的代码及提示词体系,更是促进了技术的透明度和社区的参与,加速了视频生成技术的创新与迭代。

最新发布的 VBench++ 支持更广泛的视频生成任务,包括文本生成视频和图像生成视频,并配有一套自适应的图像套件,以便在不同的设置下进行公平评估。不仅评估技术质量,还评估生成模型的可信度,从而提供对模型性能的全面评估。

VBench 系列工作不仅在学术界引起了广泛关注,也在产业界产生了深远影响。VBench 榜单目前已经成为视频生成模型领域权威榜单,榜单内容多次被知名视频模型厂商、头部科技媒体引用,能否在 VBench 榜单上名列前茅,已成为衡量视频生成模型性能的重要参考标准,深刻影响着行业的技术发展方向和产品研发策略。

VBench 评测基准现已在司南评测社区集上线,欢迎大家使用。

https://hub.opencompass.org.cn/dataset-detail/VBench

图片

图片

VBench 论文链接:

https://arxiv.org/abs/2311.17982

VBench++ 论文链接:

https://arxiv.org/abs/2411.13503

开源链接:

https://github.com/Vchitect/VBench

模型评测实时排行榜详见:

https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

评测结果更符合人类感知

针对每个细分维度,联合团队测试了 VBench 评测结果与人工评测结果之间的相关度,发现 VBench 评测方法与人类感知具备较高的一致性。下图中,横轴代表不同维度的人工评测结果,纵轴则展示了 VBench 方法自动评测的结果,可见 VBench 在各个维度均与人类感知高度对齐。

图片

全面开源,简单部署,一键安装

目前,VBench 已全面开源,且支持一键安装。详情可访问:https://github.com/Vchitect/VBench

图片

同时,包含不同能力评测基准和不同场景内容评测基准的提示词体系(Prompt List)同步开源。详情可访问:https://github.com/Vchitect/VBench/tree/master/prompts

为视频生成模型能力提升带来有价值参考

不仅可对现有模型进行评测,VBench 还可以发现不同模型中可能存在的各种问题,为未来视频生成模型发展提供有价值的指标参考。基于 VBench 的评测结果,联合团队在论文中为视频生成模型能力提升提出了系列策略:

1、“时序连贯性”及“视频的动态程度”应同时提升

时序连贯性(Subject Consistency、Background Consistency、Motion Smoothness)与视频中运动的幅度(Dynamic Degree)之间有一定的权衡关系。部分模型在背景一致性和动作流畅度方面表现较好,但在动态程度方面得分较低,而另一部分模型则相反。

2、分场景内容进行评测,发掘不同模型潜力

部分模型在不同场景上表现出的性能存在较大差异,需深度挖掘模型在某个能力维度的上限,进而针对性地提升短板。

3、复杂运动类别中的时空表现均不佳

在空间上复杂度高的类别,模型美学质量维度得分往往低。这表明当前模型在处理时序建模方面仍然存在一定的不足,时序上的建模局限可能会导致空间上的模糊与扭曲,从而导致视频在时间和空间上的质量都不理想。

4、对于难生成的类别,提升数据量收益不大

研究人员对视频数据集 WebVid-10M 进行了统计,发现其中约有 26% 的数据与 “Human”有关,占比最高。然而,在评估结果中,“Human”类别却是模型表现最差的场景。表面在复杂的生成类别中,仅仅增加数据量可能不会对性能带来显著的改善。或许可通过引入相关的先验知识或控制,来指导模型学习。

5、提升数据质量应优先于数据量

“Food”类别在 WebVid-10M 中仅占据 11%,但在评测中几乎总是拥有最高的美学质量分数。这意味着,在百万量级数据的基础上,筛选或提升数据质量,比增加数据量更会对模型能力带来帮助。

6、待提升的能力:准确生成多物体,表现物体间的关系

多数视频生成模型在多对象生成(Multiple Objects)和空间关系(Spatial Relationship)方面不及图片生成模型,提升组合能力在未来研究中具备重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值