通过复杂的文本对齐和运动感知一致性进行内容丰富的AIGC视频质量评估

近年来,文本驱动的视频生成 (Brooks 等人 2024;Hunyuan 2024) 取得了显著增长。然而,评估这些文本驱动的AI生成视频带来了独特且日益严峻的挑战。这些挑战主要源于两个关键问题:(1)需要精确的视频与文本对齐,特别是在处理复杂和长文本提示时;(2)出现了一些在自然生成视频中不常见的独特失真现象,例如不规则运动模式和物体。

随着新一代视频模型的发展,这些挑战变得更加突出。这些新一代模型以 Sora (Brooks 等人 2024) 的出现为标志,在生成质量上相比以往模型有了显著提升,其特点在于丰富的细节和内容,如 Kling (快手 2024) 、Gen-3-alpha (Runway 2024) 、Vidu (圣书 2024) 等。与之前的 AIGC 视频相比,这些模型支持 更长且更复杂的文本提示(通常超过200个字符),以及更复杂的运动模式和更长的持续时间(通常超过5秒,帧率为24帧每秒) 。如图 [fig:1] 所示,这些丰富的内容对评估者的理解视频动态及其与复杂文本语义关系的能力提出了更高的要求。

为了应对这一问题,我们引入了 Content-Rich AIGC Video Evaluator (CRAVE),用于评估这些新一代文本驱动视频的质量。CRAVE 从三个角度评估视频:首先,它考虑了传统视觉和谐性,类似于以前的视频质量评估 (VQA) 方法 (吴等 2023) ,该方法衡量美学和失真。此外,CRAVE 利用多粒度文本-时间融合模块来对齐复杂文本与视频动态。此外,CRAVE 结合了混合运动保真建模,利用层次化运动信息评估新一代AIGC视频的时间质量。

此外,最新AIGC视频的自然性和复杂性与之前视频之间的差距变得尤为明显。为了更好地评估当前的AIGC视频,我们引入了 CRAVE-DB,一个包含1,228个由高级模型(如Kling (快手 2024) 、青影 (智谱 2024) 、Vidu (圣书 2024) 和 Sora (Brooks 等人. 2024) )生成的复杂文本驱动视频的VQA基准数据集。这里,“复杂文本”指的是包括主体、动作和环境的完整描述,并至少有 5 个详细描述中的任何一个方面,总字符数超过 200 。这些视频基本消除了前几代视频中存在的闪烁、弱运动和短内容等问题。它们涵盖了各种场景、主体、动作和丰富细节,持续时间超过5秒,帧率为24 fps。大量实验表明,CRAVE 在多个指标上实现了领先的人类一致性视频质量评估结果,涵盖了 T2V-DB (Kou 等 2024b) ,目前最大的AIGC VQA数据集,以及提出的 CRAVE-DB。

总结来说,我们的主要贡献如下:(1)我们引入了 CRAVE,一种有效评估由新一代视频模型生成的丰富内容视频的评估器,通过有效的运动感知视频动态理解和多粒度文本-时间融合模块,从时间和视频-文本一致性方面评估AIGC视频。(2)鉴于新旧两代AIGC视频之间的差距,我们引入了 CRAVE-DB,这是一个由高级模型(如Kling等)生成的AIGC VQA样本基准,有助于评估当代内容丰富的AIGC视频。(3)大量实验表明,所提出的 CRAVE 在多个来源不同的AIGC VQA基准上取得了优异的结果,展示了对AIGC视频质量的强大理解能力。

2 相关工作

2.1 文本到视频模型的评估

目前,常用的文本驱动生成视频评估方法包括一些客观指标 (Radford 等 2021;Unterthiner 等 2018; Salimans 等 2016) 和人类一致的方法 (Kirstain 等 2023;Qu 等 2024;Kou 等 2024b) 。客观指标如 CLIP-score (Radford 等 2021) 测量文本与每个帧之间的平均余弦相似度。IS (Salimans 等 2016) 利用 inception 特征测量图像和视频帧的整体质量。Flow score (Huang 等 2024) 通过光流模型(如 (Teed 和 Deng 2020;S. Sun 等 2022) )计算动态程度。然而,这些客观指标并不符合人类主观感知,通常只从单一维度评估视频。一些评估自然视频质量的方法提供了人类一致的整体评价 (吴等 2023;吴等 2022;Kou 等 2023) 。DOVER (吴等 2023) 从美学和技术角度评估质量。FastVQA (吴等 2022) 利用网格小块采样高效评估视频,同时保持准确性。Q-Align (吴等 2023) 通过多模态大型语言模型将视频质量评估任务转换为离散质量等级词的生成。StableVQA (Chai 等 2023) 通过分别获取原始光流、语义和模糊特征来测量视频稳定性。这些方法适用于自然视频质量评估,但未考虑文本与视频的对齐,这是评估文本驱动视频的关键。为此,EvalCrafter (刘耀芳等 2024) 通过一系列指标(包括CLIP分数、SD分数和自然视频质量评估方法)进行质量评估。T2V-QA (Kou 等 2024b) 将基于变压器的编码器和大型语言模型结合,评估文本驱动的AIGC视频。TriVQA (Qu 等 2024) 通过交叉注意力池和Video-LLaVA的重新字幕探索视频文本一致性。然而,专门针对AIGC视频的VQA方法仍然相对较少。随着新一代视频的发展,理解和评估视频动态和文本一致性变得更加重要,带来了更大的挑战。

2.2 文本到视频生成方法

随着扩散模型的兴起 (Rombach 等 2022;Ho, Jain, 和 Abbeel 2020) , 大量视频生成模型涌现 (Singer 等 2023;Y. Wang 等 2023;J. Wang 等 2023;Blattmann 等 2023;H. Chen 等 2023;Zheng 等 2024;Lab 等 2024) 。它们在视频生成方面取得了重大突破。然而,以前的方法生成的视频仍倾向于存在低分辨率、短时长、闪烁和失真的问题。随着 Sora (Brooks 等 2024) 的出现,新一代模型 (Hunyuan 2024; LumaLabs 2024;MiniMax 2024;Tongyi 2024;Labs 2024;Yang 等 2024) 取得了显著进展。特别是最近,像 Kling (快手 2024) 、Gen-3-alpha (Runway 2024) 和 Qingying (智谱 2024) 等方法在视频生成方面取得了令人印象深刻的成果,并已提供给社区测试。这些视频普遍缓解了以前方法中的基础问题,持续时间超过5秒,帧率高于24 fps。同时,这些视频中的内容包含很多细节,并支持通过更长的文本输入进行控制。在新一代视频生成模型的浪潮下,有效评估视频中更复杂的时空关系及其与更长文本的一致性是一个值得进一步研究的话题。

2.3 文本到视频VQA数据集

为了评估并进一步促进T2V模型的发展,提出了一些文本到视频VQA数据集。尽管如此,仍然缺乏适合评估当前AIGC视频的文本到视频QA数据集。EvalCrafter (刘耀芳等 2024) 收集了700个提示,并使用5个模型生成了总共2500个视频。FETV (刘远欣等 2023) 使用619个提示,通过4个T2V模型生成了2,476个视频。Chivileva (Chivileva 等 2023) 从5个T2V模型生成了1,005个视频。VBench (Huang 等 2024) 使用近1,700个提示和4个T2V模型生成了6984个视频。T2VQA-DB (Kou 等 2024a) 包含由1000个提示生成的10,000个视频。 这些数据集主要满足两个挑战:(1)根据 ITU 标准 (Series 2012) ,评估人员数量应超过15人,以确保评估误差在可控范围内。其中只有 T2VQA-DB (Kou 等 2024a) 和 Chivileva (Chivileva 等 2023) 满足标准,分别有27和24名评估人员。(2)先前视频与当前AIGC视频之间的差距。早期视频通常涉及简单动作,常出现闪烁等基础问题,在新一代视频模型中较为少见。在本文中,为了解决先前VQA数据集未覆盖标注的新一代AIGC视频的问题,我们引入了 CRAVE-DB,其中包括来自29名评估人员主观评分的1,228个新一代AIGC视频,以提供对当前AIGC视频的稳健评估。

3 内容丰富的AIGC VQA基准

随着文本驱动视频生成模型的快速发展,当前最先进的模型在视觉质量、内容复杂性和对输入文本的理解方面与以往模型相比表现出显著差异,如图 [fig:1] 所示。这些模型大大缓解了早期模型中普遍存在的闪烁等基本问题,并取消了CLIP对基于文本输入的77个标记长度限制。挑战现在转向评估更复杂时空场景中的内容失真以及与更复杂文本的语义一致性。然而,当前AIGC VQA数据集仍然基于早期的一般模型,与当前内容丰富的模型之间存在显著差距。为此,我们引入了 CRAVE-DB,一个新的AIGC VQA基准,包含由最先进视频生成模型生成的复杂文本提示、内容丰富的视频以及相应的人类评分。该数据集包含由最先进视频模型生成的1,228个视频,采用410个复杂提示。每个视频的持续时间超过5秒,帧率为24 fps。对于主观反馈,每个视频由29名人类评估人员评分。我们将在以下段落介绍提示收集、视频生成和主观研究的过程。

CRAVE-DB 中提示的词云。

3.1 提示收集

CRAVE-DB 的收集。

过去的AIGC VQA数据集由前一代模型组成,其中大多数支持的提示长度受CLIP (Radford 等 2021) 的限制。在这种情况下,这些提示往往简短,难以纳入复杂的运动描述和场景组合。例如,我们展示了不同数据集中提示的密度(每个提示的平均单词和字符数),如表 [tab:prompt_len] 所示。我们可以了解到,大多数先前数据集中的提示仅包含十几个单词。这种固有限制使得模型在评估更复杂的语义对齐时面临重大挑战。

为了解决这个问题,我们建议构建包含更丰富信息的提示。我们的整体流程如图 2 所示。为了确保提示详细且语义丰富,我们专注于先验密集标注的数据集,ShareGPT-4o 数据集 (陈哲等 2023) ,该数据集利用GPT-4o的高级多模态功能详细描述视频。这个数据集包含丰富的注释,甚至需要总结才能成为清晰的提示。我们随机抽取了300个标题,并使用GPT-4 (Achiam 等 2023) 对其进行了总结,仅保留关键细节。然后进行了第一轮人工干预,以筛选出失败、冗余或不合逻辑的生成。

鉴于 ShareGPT-4o 主要关注日常生活场景,我们手动编写了200个更多提示以扩大动作、主题和场景的覆盖面。提示包含4个类别:风景、物体、动物和人类。风景包括常见场景(如草原、街道)、罕见环境(如火山、极光)和著名地标。动物包括各种哺乳动物、爬行动物、鸟类、鱼类和两栖动物。物体涵盖常见的现实世界物品,而人类则包括不同年龄、性别、职业和着装的人物。

随后,我们使用 GPT-4 按照模板格式结构化原始提示:“[镜头语言] + [主题描述] + [主题动作描述] + [场景描述] + [附加细节描述]”。镜头语言包括各种电影摄影技巧,如倾斜镜头、平拍、推进镜头、环绕镜头、特写和全景。场景描述包括不同天气和光照条件下的自然景观。之后,我们启动了第二轮人工干预,筛选和优化所有提示,最终确定了410个高质量提示。整体词云如图 1 所示。

CRAVE-DB 中 MOS 的分布。

3.2 视频生成

3.3 主观研究

4 内容丰富的AIGC视频评估器

4.1 总体框架

CRAVE 从三个角度评估内容丰富的AIGC视频:(1)视觉和谐性,使用传统的视频质量指标(如美学和失真)进行测量;(2)文本-视频语义对齐,通过多粒度文本-时间(MTT)融合实现;(3)运动感知一致性,这是AIGC视频中特有的动态失真,通过混合运动保真建模(HMM)捕捉。总体框架如图 [fig:crave_pipeline] 所示。我们将在以下部分详细介绍每个模块。

所提出的 MTT 模块用于文本对齐的详细说明。

4.2 视觉和谐性

4.3 多粒度文本-时间融合

4.4 混合运动保真建模

与自然视频相比,AIGC视频通常包含违反物理规律的独特失真,如不规则物体和运动。尽管最近的视频生成模型取得了显著改进,但低保真运动仍然是一个持续的挑战。这里,违反逻辑的运动、变形运动以及异常幅度的运动统称为“低质量”运动。为了更好地评估当前AIGC视频中的运动失真,我们提出了混合运动保真建模(HMM),它分层捕捉不同粒度的运动特征。具体来说,考虑到光流在异常检测中的成功应用 (Caldelli 等 2021;Agarwal 等 2020) ,我们利用从光流中提取的密集运动信息捕捉低级运动模式,并结合来自动作识别任务的全局抽象运动信息 (Kay 等 2017;Goyal 等 2017) 。实验部分后来证明了结合这两个方面的有效性。在实践中,使用预训练的 StreamFlow (S. Sun, Liu 等 2024) 提取流特征,而高层抽象运动先验则来自预训练的 Uniformer (K. Li 等 2023) 。不同分支随后输入前馈网络并通过线性头回归以获得最终输出。

4.5 监督

5 实验

5.1 实现细节

5.2 定量结果

如表 [tab:1] 和表 [tab:2] 所示,我们可以看到 CRAVE 在所提出的丰富内容数据集和 T2VQA-DB 上都取得了领先的表现。在 CRAVE-DB 上,CRAVE 展现出特别显著的优势,突显了其在评估新一代AIGC视频方面的有效性。在 T2VQA-DB 上,CRAVE 也优于以前的模型,甚至超过了基于大型语言模型(LLM)的模型,如 Q-Align 和 T2VQA,这进一步证明了其多维度设计的有效性。“Ft.” 表示需要在目标数据集上进一步微调的方法。“Bg.”、“Sub.”、“Consis”、“Aes.”、“Sm.” 分别表示背景、主体、一致性、美学和平滑度。零样本方法往往具有较低的结果,这也反映在以前的工作中 (Kou 等 2024b;S. Sun, Liang 等 2024) 。这可能是由于缺乏与人类感知的对齐或未考虑AIGC视频中的动态失真。

5.3 定性结果

我们可视化了预测 MOS 和真实 MOS 之间的差异,如补充材料所示。曲线通过四阶多项式非线性拟合获得。我们进一步展示了通过 CRAVE 评估的不同 AIGC 视频的分数,详见补充材料。

5.4 零样本排名比较

我们展示了 CRAVE 在不同 VQA 数据集上训练后对新一代视频生成模型评分的排名。如第 3.2 节所述,VideoGenEval (曾等 2024) 被选为此实验的数据源,因其相对较高的提示密度、完全不同的数据来源以及包含更新的模型。我们使用了 VideoGenEval 中的所有424个文本到视频(t2v)提示,并生成了包括最近模型(如 (智谱 2024;圣书 2024;团队 2024;Brooks 等 2024;杨等 2024; LumaLabs 2024;字节跳动 2024;Hunyuan 2024;Runway 2024;快手 2024) 的结果。如图 [fig:rank] 所示,(a) 和 (b) 分别对应于表 [tab:1] 和表 [tab:2] 中的预训练权重。

5.5 消融研究

为了验证所提出方法的有效性,我们在 CRAVE 的设计中消融了每个组件,如表 [tab:3] 所示。下划线设置用于我们的最终模型。我们在 CRAVE-DB 和 T2VQA-DB 上进行了实验。由于 CRAVE-DB 自然包含复杂文本、丰富的运动信息和其他此类内容,我们可以发现其改进通常更为显著。我们首先探索了将文本与时间视觉信息对齐的方法。ST-Graph,即时空图,将时间维度展平为空间维度进行计算。Temp. Attn. 表示沿附加的时间维度进行注意力计算。Pseudo 3D Conv 受启发于 (Singer 等 2023) ,在时间维度上堆叠额外的卷积。我们可以看到,通过时间建模显著提高了有效性,广泛应用于生成任务的 Pseudo 3D Conv 在长文本时空建模方面表现出色。我们进一步研究了 MTT 的粒度,发现整合所有粒度级别可获得最佳性能。此外,我们探讨了运动感知时序建模的影响。我们的实验表明,光流提供的密集数据增强了整体性能,结合稀疏的抽象时空信息提供了显著的性能提升。我们进一步探讨了光流帧数对结果的影响。具体来说,我们在处理过程中分别使用了4帧、8帧和16帧计算光流。我们观察到,使用更多的光流帧倾向于提高准确性。鉴于准确性和效率之间的权衡,我们最终选择了16帧进行光流计算。

6 结论

鉴于当前AIGC视频与AIGC VQA数据集之间的差距,我们引入了 CRAVE,一种有效的VQA方法,以及 CRAVE-DB,一个针对新一代AIGC视频的新基准。基于有效的多维度设计,CRAVE 在多个指标和数据集上实现了出色的人类一致性结果。CRAVE-DB 包含更丰富的内容提示和详细内容,以及广泛的主观注释,使其更接近当前的文本驱动AIGC视频。

影响声明

本文旨在推进机器学习领域的发展。我们的工作可能有许多社会后果,但我们认为没有必要在此特别强调任何特定的后果。

7 定性结果.

如图 [fig:mos] 所示,(a)、(b) 和 (c) 表示 T2VQA-DB 上不同模型之间的差异可视化。点越集中,差异越小。我们可以观察到,(a) 和 (b) 中的点更分散且离中心线更远。使用四阶多项式非线性拟合绘制中心线。(d) 显示了 CRAVE 对不同模型生成结果的评分。更多详细视频可以在补充材料中找到。这里,CRAVE 的直接输出未经过归一化,因此可能出现负值。

Achiam, Josh, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, et al. 2023. “Gpt-4 技术报告。” arXiv Preprint arXiv:2303.08774 .

Agarwal, Shruti, Hany Farid, Tarek El-Gaaly, and Ser-Nam Lim. 2020. “基于外观和行为检测深度伪造视频。” In 2020 IEEE 国际信息取证与安全研讨会 (WIFS) , 1–6. IEEE.

Blattmann, Andreas, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, et al. 2023. “稳定视频扩散:将潜在视频扩散模型扩展到大型数据集。” arXiv Preprint arXiv:2311.15127 .

Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, et al. 2024. “视频生成模型作为世界模拟器。” OpenAI.

ByteDance. 2024. “Seaweed Pro。” https://jimeng.jianying.com/ .

Caldelli, Roberto, Leonardo Galteri, Irene Amerini, and Alberto Del Bimbo. 2021. “基于光流的CNN用于检测未学习的深度伪造操作。” Pattern Recognition Letters 146: 31–37.

Chai, Wenhao, Xun Guo, Gaoang Wang, and Yan Lu. 2023. “Stablevideo:文本驱动的一致性感知扩散视频编辑。” In IEEE/CVF 国际计算机视觉会议论文集 , 23040–50.

Chen, Haoxin, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, et al. 2023. “Videocrafter1:开放扩散模型用于高质量视频生成。” arXiv Preprint arXiv:2310.19512 .

Chen, Zhe, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, et al. 2023. “InternVL:扩展视觉基础模型并对其通用视觉-语言任务进行对齐。” arXiv Preprint arXiv:2312.14238 .

Chivileva, Iya, Philip Lynch, Tomas E Ward, and Alan F Smeaton. 2023. “测量文本到视频模型输出的质量:指标和数据集。” arXiv Preprint arXiv:2309.08009 .

Gao, Fei, Dacheng Tao, Xinbo Gao, and Xuelong Li. 2019. “盲图像质量评估的学习排序。” https://arxiv.org/abs/1309.0213 .

Goyal, Raghav, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, et al. 2017. “‘Something Something’ 视频数据库用于学习和评估视觉常识。” In IEEE 国际计算机视觉会议论文集 , 5842–50.

Ho, Jonathan, Ajay Jain, and Pieter Abbeel. 2020. “去噪扩散概率模型。” 神经信息处理系统进展 33: 6840–51.

Honnibal, Matthew, Ines Montani, Sofie Van Landeghem, and Adriane Boyd. 2020. “spaCy:Python中的工业级自然语言处理。” https://doi.org/10.5281/zenodo.1212303 .

Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, and others. 2024. “Vbench:视频生成模型的综合基准套件。” In IEEE/CVF 计算机视觉与模式识别会议论文集 , 21807–18.

Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, et al. 2024. “VBench:视频生成模型的综合基准套件。” In IEEE/CVF 计算机视觉与模式识别会议论文集 .

Hunyuan, Tencent. 2024. “HunyuanVideo:大型视频生成模型的系统框架。” https://arxiv.org/abs/2412.03603 .

Int.Telecommun.Union. 2000. “电视图像质量主观评估方法 ITU-r 建议书。” 技术报告

Kay, Will, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, et al. 2017. “Kinetics 人类动作视频数据集。” arXiv Preprint arXiv:1705.06950 .

Kirstain, Yuval, Adam Polyak, Uriel Singer, Shahbuland Matiana, Joe Penna, and Omer Levy. 2023. “Pick-a-Pic:文本到图像生成的用户偏好开放数据集。” 神经信息处理系统进展 36: 36652–63.

Kou, Tengchuan, Xiaohong Liu, Wei Sun, Jun Jia, Xiongkuo Min, Guangtao Zhai, and Ning Liu. 2023. “Stablevqa:用于视频稳定的深度无参考质量评估模型。” In ACM 多媒体国际会议论文集 , 1066–76.

Kou, Tengchuan, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, and Ning Liu. 2024a. “文本到视频质量评估的主观对齐数据集和度量。” https://arxiv.org/abs/2403.11956 .

———. 2024b. “文本到视频质量评估的主观对齐数据集和度量。” arXiv Preprint arXiv:2403.11956 .

Kuaishou. 2024. “Kling。” https://kling.kuaishou.com/ .

Lab, PKU-Yuan, and Tuzhan AI etc. 2024. “Open-Sora-Plan。” GitHub. https://doi.org/10.5281/zenodo.10948109 .

Labs, Pika. 2024. “Pika 1.5。” https://pika.art .

Li, Junnan, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. “BLIP:引导语言-图像预训练以实现统一的视觉-语言理解和生成。” In ICML .

Li, Kunchang, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, and Yu Qiao. 2023. “Uniformer:统一卷积和自注意力进行视觉识别。” IEEE Transactions on Pattern Analysis and Machine Intelligence 45 (10): 12581–600.

Liu, Xiaohong, Xiongkuo Min, Guangtao Zhai, Chunyi Li, Tengchuan Kou, Wei Sun, Haoning Wu, et al. 2024. “NTIRE 2024 AI生成内容质量评估挑战。” In IEEE/CVF 计算机视觉与模式识别会议 (CVPR) 工作坊论文集 , 6337–62.

Liu, Yaofang, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, and Ying Shan. 2024. “Evalcrafter:基准测试和评估大型视频生成模型。” In IEEE/CVF 计算机视觉与模式识别会议论文集 , 22139–49.

Liu, Yuanxin, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu Sun, and Lu Hou. 2023. “FETV:开放领域文本到视频生成的细粒度评估基准。” arXiv Preprint arXiv: 2311.01813 .

LumaLabs. 2024. “Dream Machine。” https://lumalabs.ai/dream-machine .

MiniMax. 2024. “Hailuo AI。” https://hailuoai.com/video .

Qu, Bowen, Xiaoyu Liang, Shangkun Sun, and Wei Gao. 2024. “探索AIGC视频质量:关注视觉和谐、视频-文本一致性和域分布差距。” arXiv Preprint arXiv:2404.13573 .

Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, et al. 2021. “基于自然语言监督学习可转移的视觉模型。” In 国际机器学习会议 , 8748–63. PMLR.

Rombach, Robin, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. 2022. “通过潜在扩散模型实现高分辨率图像合成。” In IEEE/CVF 计算机视觉与模式识别会议论文集 , 10684–95.

Runway. 2024. “Gen-3。” https://runwayml.com/blog/introducing-gen-3-alpha/ .

Salimans, Tim, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. 2016. “改进GAN训练技术。” 神经信息处理系统进展 29.

Series, B. 2012. “电视图像质量主观评估方法。” ITU-R BT 推荐书 500 (13).

Shengshu. 2024. “Vidu。” https://www.vidu.studio/create .

Singer, Uriel, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, et al. 2023. “Make-a-Video:无需文本-视频数据的文本到视频生成。” In 第十一届国际学习表征会议 .

Sun, Shangkun, Yuanqi Chen, Yu Zhu, Guodong Guo, and Ge Li. 2022. “Skflow:使用超级核学习光流。” 神经信息处理系统进展 35: 11313–26.

Sun, Shangkun, Xiaoyu Liang, Songlin Fan, Wenxu Gao, and Wei Gao. 2024. “VE-Bench:文本驱动视频编辑质量评估的主观对齐基准套件。” In AAAI 人工智能会议论文集 .

Sun, Shangkun, Jiaming Liu, Thomas H Li, Huaxia Li, Guoqing Liu, and Wei Gao. 2024. “StreamFlow:视频序列中多帧光流估计的简化方法。” In 神经信息处理系统进展 .

Sun, Shangkun, Bowen Qu, Xiaoyu Liang, Songlin Fan, and Wei Gao. 2025. “IE-Bench:推进文本驱动图像编辑的人类感知一致性测量。” arXiv Preprint arXiv:2501.09927 .

Sun, Wei, Xiongkuo Min, Wei Lu, and Guangtao Zhai. 2022. “用于UGC视频的深度学习无参考质量评估模型。” In ACM 多媒体国际会议论文集 , 856–65.

Team, Genmo. 2024. “Mochi 1。” GitHub Repository . https://github.com/genmoai/models ; GitHub.

Teed, Zachary, and Jia Deng. 2020. “Raft:通过递归所有点场变换进行光流估计。” In 计算机视觉–ECCV 2020:第16届欧洲会议,格拉斯哥,英国,2020年8月23–28日,会议录,第二部分 16 , 402–19. Springer.

Tongyi, Ali. 2024. “Wanxiang Video。” https://tongyi.aliyun.com/wanxiang/videoCreation .

Unterthiner, Thomas, Sjoerd Van Steenkiste, Karol Kurach, Raphael Goyal, Marcin Michalski, and Sylvain Gelly. 2018. “准确生成视频模型的技术和挑战。” arXiv Preprint arXiv:1812.01717 .

Runway. 2024. “Gen-3。” https://runwayml.com/blog/introducing-gen-3-alpha/ .

Zeng, Ailing, Yuhang Yang, Weidong Chen, and Wei Liu. 2024. “视频生成的黎明:初步探索 SORA 类模型。” arXiv Preprint arXiv:2410.05227 .

Zheng, Zangwei, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. 2024. “Open-Sora:使高效视频生产民主化。” https://github.com/hpcaitech/Open-Sora .

Zhipu. 2024. “青影。” https://chatglm.cn/video .

Zhu, Cunjuan, Qi Jia, Wei Chen, Yanming Guo, and Yu Liu. 2023. “深度学习在视频-文本检索中的应用:综述。” 多媒体信息检索国际期刊 12 (1): 3.

原论文:https://arxiv.org/pdf/2502.0407

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值