香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄

初恋苏志燮

于 2024-08-20 03:33:41 发布

阅读量41

点赞数

相较于文本生成、文生图等领域而言，文生视频领域发展相对较慢。当年一段“史密斯吃面”的视频意外走红网络，可谓相当魔幻。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_基准测试

然而进入 2024 年，OpenAI 再一次给 AI界人了一个重磅炸弹 —— 文本视频大模型 Sora 横空出世，将 AI 创作的最后一块拼图也补上了。

此后，腾讯、Show Lab 等争相发布了自己的文生视频大模型。但是还没有一个基准测试全面评估这些模型的能力。

为此，香港大学的研究团队发布了名为 T2V-CompBench 的基准测试，并且首次将“组合性”这个概念引入视频生成评估中。

T2V-CompBench 通过 7 个精心设计的类别全面评估文生视频模型的组合性能力，包括一致属性绑定、动态属性绑定、空间关系、动作绑定、运动绑定、对象交互和生成数字。每个类别都针对视频生成中的特定组合性挑战，从静态属性的一致性到复杂的动态交互。

研究使用 T2V-CompBench 对 20 个主流视频生成模型进行全面测评。结果显示虽然文生视频技术突飞猛进，但是在处理复杂动态场景时仍然“力不从心”。

有了这个基准，文生视频可以针对现如今的一些缺陷进行优化，从而提升生成视频的质量。

如此发展下去，在 2025 年或许会出现大模型生成的电影！期待捏～

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_基准测试_02

论文标题：
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

论文链接：
https://arxiv.org/pdf/2407.14505

从“史密斯吃面”到“奥斯卡之夜”

近年来，人工智能在文生文和文生图领域取得了惊人的进展。然而，文生视频技术的发展却相对滞后，“史密斯吃面”的场景还历历在目（手动狗头）。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_人工智能_03

究其原因，小编总结如下：

与文生文和文生图相比，视频生成需要考虑更多维度。除了画面内容，还要处理时间序列、动作连贯性、物体运动等复杂因素。
生成高质量视频需要海量的计算资源。这不仅增加了研发成本，也限制了模型的训练规模和效率。
高质量的视频-文本对数据相对稀缺，而且标注成本高昂。相比之下，文本和图像数据更容易获取和处理。
缺乏统一的评估标准使得模型优化方向不明确。特别是在组合性方面，之前几乎没有专门的评估基准。

由于以上因素的限制，文生视频领域一直不温不火，直到 2024 年初，OpenAI 才退出了质量较高的文生视频大模型 —— Sora。

此后，文生视频领域大模型如雨后春笋般出现，例如港中文的 VideoTetris 以及 Pika 等。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_ide_04

目前的文生视频在处理复杂场景时仍然面临不少挑战，例如如何准确地将多个物体、属性和动作组合到一个连贯的视频中？这就涉及到了“组合性”的问题。

虽然组合性在文生图领域已经被广泛研究，但是在文生视频领域却鲜有人关注。现有的视频生成评估方法主要集中在视频质量和文本-视频对齐度上，忽视了组合性这一重要维度。

为此，香港大学的研究团队开发了 T2V-CompBench，专门用于评估文生视频模型组合性能力的基准测试。

通过这个基准测试，可以全面了解当前文生视频模型的优缺点，并且可以对模型的缺点针对性改进。

或许在不久将来可以看到大模型生成的影片登上奥斯卡的舞台。

T2V-CompBench 和它的 700 个Prompts

为了评估各文生图大模型的表现，香港大学研究人员设计了 T2V-CompBench。他们巧妙借助 GPT-4，生成了 700 个包罗万象的文本提示，涵盖了从“一致属性绑定”到“生成数字”等 7 大类别。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_ide_05

具体而言，研究团队采用一种结构化的方法生成这些提示。

首先，他们定义了每个类别的提示结构和要求，然后利用 GPT-4 生成初始提示。例如，对于动作绑定类别， GPT-4 会生成两个对象，没个对象有一个独特动作的提示。

所有生成的提示都经过人工验证，确保质量和适用性。

为了便于评估，研究人员为每个提示生成了相应的元数据。这些元数据包括提示中的关键信息，例如对象、属性、空间关系等，为后续的自动评估提供了基础。

下图展示了T2V-CompBench的统计特征。词云可视化直观地展示了提示中常用词汇的分布。柱状图则详细显示了每个提示的平均组成：包括副词、形容词、动词、名词的数量以及提示的平均长度。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_商业_06

全方位测试文生视频模型性能

研究团队基于 T2V-CompBench 对 13 个开源模型和 7 个商业模型进行一系列评估，包括 ModelScope、ZeroScope、Latte、Show-1 等开源模型以及 Pika、Gen-2、Gen-3 等商业模型。

评估采用了多种指标，包括传统的 CLIPScore 和 BLIP-CLIP，研究人员还为本研究专门设计了新指标，这些指标分为三类：

基于多模态大语言模型的评估，例如 LLaVA、ImageGrid-LLaVA 等模型
基于目标检测的评估，例如 GroundingDINO
基于目标跟踪的评估，例如 DOT 方法

研究团队采用人工评估实验验证评估指标的有效性。他们随机选择了每个类别中的15个提示，并使用不同模型生成了共656个视频。这些视频由人工标注者进行评分。研究者计算了自动评估指标与人工评分之间的相关性，结果显示新设计的指标在多个类别中表现优于传统指标。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_商业_07

上图展示了不同模型在 7 个类别上的表现。总体而言，商业模型的表现优于开源模型。

在开源模型中，Show-1、VideoCrafter2、VideoTetris 和 Open-Sora 系列模型表现较为出色，Open-Sora-Plan v1.1.0 在多个类别中取得了最好的表现。

下图展示了不同模型在处理具有挑战性的提示时的表现。

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_商业_08

香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄_ide_09

从实验结果可以看出，动态属性绑定和生成数字是最具挑战性的任务，模型往往难以准确捕捉属性变化或生成正确数量的对象。空间关系、运动绑定和动作绑定也存在一定难度，模型经常混淆方向或无法正确关联动作与对象。

总结与展望

香港大学研究团队发布的 T2V-CompBench 对 20 个文生视频大模型进行测试，其包含 7 类 700 个文本提示。

结果显示，虽然商业模型整体表现较好，但所有模型在处理复杂场景时仍面临挑战。模型在动态属性绑定和生成数字方面表现欠佳，难以准确捕捉属性变化或生成正确数量的对象。同时，在处理空间关系、运动和动作绑定时也常出现混淆，显示出当前技术在复杂场景处理上的不足。

研究人员可以根据 T2V-CompBench 测试结果对文生视频模型针对优化，或许有一天我们可以看到由大模型生成的电影呢。

原创作者: xixiaoyao 转载于: https://blog.51cto.com/xixiaoyao/11784467

初恋苏志燮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫