AI视频生成哪家强？一键安装 VBench，测一测就知道！-CSDN博客

关注公众号，发现CV技术之美

VBench是什么？

AI视频生成这块儿，最近可真是火得不得了。这几个月以来，好几个视频生成模型相继亮相。各个高校实验室、互联网巨头AI Lab、创业公司纷纷加入了AI视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM等视频生成模型让人眼前一亮。

随着AI视频生成技术的快速发展，大家都特别好奇几个问题：

到底哪个视频生成模型最牛？
每个模型有什么特长？
AI视频生成领域目前还有哪些值得关注的问题待解决？

为此，我们推出了VBench，一个全面的“视频生成模型的评测框架”，来告诉你“视频模型哪家强，各家模型强在哪”。

VBench不光能全面、细致地评估视频生成的效果，而且还特别符合人们的感官体验，能省下一大堆评估的时间和精力。

🏛️ VBench包含16个分层和解耦的评测维度
📊 VBench开源了用于文生视频生成评测的Prompt List体系
👁️ VBench每个维度的评测方案与人类的观感与评价对齐
🌟 VBench提供了多视角的洞察，助力未来对于AI视频生成的探索

论文：https://arxiv.org/abs/2311.17982
代码：https://github.com/Vchitect/VBench
网页：https://vchitect.github.io/VBench-project/
视频：https://www.bilibili.com/video/BV1Fu4y1w7fT/?spm_id_from=333.999.0.0&vd_source=341b59d17d561447c113cdc2889d161d

AI视频生成模型 - 评测结果

已开源的AI视频生成模型

各家开源的AI视频生成模型在VBench上的表现如下。

各家已开源的AI视频生成模型在VBench上的表现。在雷达图中，为了更清晰地可视化比较，我们将每个维度的评测结果归一化到了0.3与0.8之间。

各家已开源的AI视频生成模型在VBench上的表现。

在以上6个模型中，可以看到VideoCrafter-1.0和Show-1在大多数维度都有相对优势。

创业公司的视频生成模型

VBench目前给出了Gen-2和Pika这两家创业公司模型的评测结果。

Gen-2和Pika在VBench上的表现。在雷达图中，为了更清晰地可视化比较，我们加入了VideoCrafter-1.0和Show-1作为参考，同时将每个维度的评测结果归一化到了0.3与0.8之间。

Gen-2和Pika在VBench上的表现。我们加入了VideoCrafter-1.0和Show-1的数值结果作为参考。

可以看到，Gen-2和Pika在视频质量（Video Quality）上有明显优势，例如时序一致性（Temporal Consistency）和单帧质量（Aesthetic Quality和Imaging Quality）相关维度。在与用户输入的prompt的语义一致性上（例如Human Action和Appearance Style），部分维度开源模型会更胜一筹。

视频生成模型 VS 图片生成模型

视频生成模型 VS 图片生成模型。其中SD1.4，SD2.1和SDXL是图片生成模型。

视频生成模型在8大场景类别上的表现

下面是不同模型在8个不同类别上的评测结果。

开源

VBench支持一键安装使用啦！只需几行代码即可。

各维度评测方案的代码已全面开源：https://github.com/Vchitect/VBench

我们也开源了一系列Prompt List：https://github.com/Vchitect/VBench/tree/master/prompts，包含在不同能力维度上用于评测的Benchmark，以及在不同场景内容上的评测Benchmark。

左边词云展示了我们Prompt Suites的高频词分布，右图展示了不同维度和类别的prompt数量统计。

VBench准不准？

针对每个维度，我们计算VBench评测结果与人工评测结果之间的相关度，进而验证我们方法与人类观感的一致性。下图中，横轴代表不同维度的人工评测结果，纵轴则展示了VBench方法自动评测的结果，可以看到我们方法在各个维度都与人类感知高度对齐。

VBench带给AI视频生成的思考

VBench不仅可以对现有模型进行评测，更重要的是，还可以发现不同模型中可能存在的各种问题，为未来AI视频生成的发展提供有价值的insights。

“时序连贯性”以及“视频的动态程度”：不要二选一，而应同时提升

我们发现时序连贯性（例如Subject Consistency、Background Consistency、Motion Smoothness）与视频中运动的幅度（Dynamic Degree）之间有一定的权衡关系。比如说，Show-1和VideoCrafter-1.0在背景一致性和动作流畅度方面表现很好，但在动态程度方面得分较低；这可能是因为生成“没有动起来”的画面更容易显得“在时序上很连贯”。另一方面，VideoCrafter-0.9在与时序一致性的维度上弱一些，但在Dynamic Degree上得分很高。

这说明，同时做好“时序连贯性”和“较高的动态程度”确实挺难的；未来不应只关注其中一方面的提升，而应该同时提升“时序连贯性”以及“视频的动态程度”这两方面，这才是有意义的。

分场景内容进行评测，发掘各家模型潜力

有些模型在不同类别上表现出的性能存在较大差异，比如在美学质量（Aesthetic Quality）上，CogVideo在“Food”类别上表现不错，而在“LifeStyle”类别得分较低。如果通过训练数据的调整，CogVideo在“LifeStyle”这些类别上的美学质量是否可以提升上去，进而提升模型整体的视频美学质量？这也告诉我们，在评估视频生成模型时，需要考虑模型在不同类别或主题下的表现，挖掘模型在某个能力维度的上限，进而针对性地提升“拖后腿”的场景类别。