点击下方卡片,关注“大模型没那么大”公众号
大模型巨卷干货,即可获取
前情提要
现在的AIGC学术成果可以说是呈现日均井喷的状态,每天如果不及时浏览最新论文,过不了几日就会堆积如山。不看一日如隔三秋,AI一天人类一年。尽管如此,视频生成产品的商业化仍然属于早期,路程依然很崎岖。“一眼假”、“生成慢”、“效果不确定”的评论常常伴随着视频生成模型或产品的新版本发布“同步上线”。
视频生成大模型目前究竟发展到什么样的一个水平如何?
从模型效果的sota到产品令人“眼前一亮”,究竟有多大的gap要弥补?
距离人人拥有随心定制百万运镜的时刻还有等待多久?

于是,首期AIGC炼丹煮茶线上圆桌就在这样的“疑惑”中诞生了。该场圆桌聚焦AIGC前沿技术与商业化发展,主持人Gloria和闻星、张浩杰两位特邀嘉宾一起深入探讨了视频生成领域的现状、挑战与未来。讨论首先回顾了视频生成技术的关键模型,如DDPM、Flow及AR(自回归)范式,并指出当前技术在实现物理真实性和视频长度的完美结合上仍面临挑战,还涉及了模型可控性、提示词对生成质量的影响,大模型在生成视频方面当前取得的阶段性成果与仍然存在的不足。在最后一个环节,主持人Gloria展示了国内主流的几款视频生成软件对通过同一张图和同一段提示词生成视频的效果,并邀请了嘉宾和观众一起点评与展望。
关键词:AIGC, 视频生成, 评估基准,真实性, 可控性, 创造力, 物理性, 常识, 人体真实性
炼丹时刻1:视频生成效果如何评估
圆桌第一部分由嘉宾闻星分享一个专注于AI论文的平台--PaperScope ,共收集了 190 多篇最新视频生成领域相关论文(截止分享当天)。这些论文展示了视频生成技术的最新进展,为研究人员和从业者提供了丰富的研究资料。同时,他还分享了 VBench 2.0 评估基准,包含有两种评估方法,一种是文本描述对齐,另一种是基于视频的多问答。相比上一个版本-- VBench 1.0,VBench 2.0 更注重从真实性、可控性、创造力、物理性和常识五个维度评估视频生成模型的内在质量,更全面地对当下视频生成模型的性能进行评估,为模型的发展和优化提供了重要的参考依据。




随后,闻星对这5个维度进行了展示。
第一个维度专注于人类真实感,分为三个部分:评估角色图像的结构准确性和时间一致性。这包括评估解剖学上的正确性,例如识别手、脸和身体上的不自然变形,以及确保时间上的连贯性。例如,整个视频中的服装保持不变。
第二维度是创造力,它评估模型生成多样化输出和处理复杂组合的能力。多样性通过样本的风格和内容变化来衡量,而组合则评估对象互动、单一实体运动和多实体动态。
第三维度是可控性,评估模型对复杂姿势和动态变化的遵循程度,例如空间变换、动态属性、运动序列的理解、人机交互、复杂景观、复杂情节和镜头运动。
第四维度涉及对现实世界物理原理的遵循,包括力学(例如,水滴下落、球体弹跳)、热力学(例如,相变如汽化、液化、升华)、材料属性(例如,颜色混合、硬度、可燃性、溶解性)和几何多视角一致性。
第五维度评估视频生成中的推理能力——动作是否合理并产生现实后果。例如,虚拟动作如边走边吃但没有前进运动,会评估其逻辑一致性。
以各家今年发布的最新版视频生成模型在Vbench 2.0的评估结果来看:
Sora在人类真实感和创造力方面表现出色,但在可控性和物理方面表现不佳。
Kling 1.6在推理和与镜头相关的维度上表现强劲,同时在其他方面保持平衡性能。
CodeVideo X1.5在物理和复杂提示方面挣扎,特别是在以人为中心的维度上。
MemberVideo在与人相关的方面取得了令人印象深刻的结果,但在其他维度上滞后。
而这些模型共同的局限性则可以归结为:视频时长普遍不够长短,动态变化和空间关系的挑战依然存在,这也是当前视频生成领域前进道路的“拦路虎”。
随后,闻星介绍了CompassHub 司南评测集社区。作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助用户了解模型在各细分领域的能力边界。与此同时,他针对当前领域发展现状,探讨了视频生成技术的资源需求和商业化潜力,比如是否可以通过会员制、广告等方式补贴项目成本。
炼丹时刻2:硬核解读视频生成领域的“前世今生”
圆桌第二部分,嘉宾浩杰带大家回顾了视频生成领域的“前世今生”。他深入探讨了视频和图像生成技术的最新发展,特别是从技术和方法论角度分析了当前领域的三点:痛点、亮点与难点。
当前的视频生成模型与图像生成的原理本质上是相同的。无论是扩散生成方式还是其他方法,其核心目标都是从一组图像样本中构建一个分布。如果这个分布能够准确反映现实世界或自然规律,那么通过随机采样,可以生成符合物理规律和人类认知的新图像。目前,所有生成模型的核心目标都是通过优化数据和模型结构,构建更高质量的分布,从而生成更逼真、更符合人类指令的结果。

从技术范式来看,目前主流的方法包括DDPM、Flow-based和自回归模型(AR)。DDPM路线始于2020年,并在2022年由Stable Diffusion实现成熟化。随后,DiT架构进一步推动了这一领域的发展,而SiT则通过Flow-based方法显著提升了采样效率,减少了生成所需的步数。
另一种范式是自回归模型(Autoregressive Model,简称AR模型),例如最近发布的GPT-4o。自回归模型类似于GPT系列,但针对图像生成时存在一些挑战。大多数之前提到的方法都基于DDPM或Flow。但AR范式,这是一种更为原生的方法,可以理解为一个多模态模型,旨在将数据(包括文本、图像和视频)统一编码到一个空间中。然后,它利用类似于GPT的下一个标记预测范式来训练生成模型。这里没有太多捷径可走——需要一个标记化工具和一个类似GPT的训练过程。
图像数据缺乏文本中的因果关系,传统的自回归方法就显得不太适合。去年的一些工作,如MAR和VAR,突破了传统自回归的限制,证明了自回归模型在质量上可以与DDPM或Flow-based模型竞争,甚至超越它们。但总体来看在视频生成领域,自回归范式的创新相对较少。

对比视频生成与图像生成,二者主要区别在于时序建模。早期的视频生成方法通常将视频视为连续的图像帧,逐帧生成。但视频的时序特性带来了额外的复杂性,这也是未来研究的重要方向。
早期的视频处理方法是将视频视为一系列图片帧,本质上是一种视频流。在模型内部,时间维度和空间维度分别被处理。在时间维度上,每一帧被当作Token处理;在空间维度上,每一帧内部的Token被单独处理。这种方法在模型较小时可行,但能力有限且建模复杂。
后来,混元和CogVideo等模型开始将连续视频帧作为一个Token处理,这种Token可视为一种立方格,同时涵盖时间跨度和空间跨度。这种建模方式更为高效,但需要更大的数据量和模型规模来同时捕捉时间和空间特征。更大的数据和模型也意味着更强的学习能力。
视频生成领域的另一个重要方向是视频压缩。Stable Diffusion之所以能生成高分辨率图片和视频,是因为采用了VAE(变分自编码器)来压缩原始图像。理论上,长视频的压缩率可以高于单张图片,因为每一帧都能提供额外信息。因此,VAE压缩成为视频生成中的关键方向。
去年,LTX Video以相对较小的模型参数实现了高分辨率视频生成,其核心在于VAE压缩技术。它能够实现高压缩率,使更多开发者能够使用。从LTX Video的示例可以看出,其VAE压缩基于固定帧数的视频流,与图片相比,视频只是扩展了图片的范围。
圆桌中,浩杰还介绍了多种下游任务中的应用展开,包括三维重建、可控视频生成、多视角视频生成、风格转换以及数字人视频生成,并强调了视频模型的生成能力及其在保持视觉一致性的同时,如何应用于如三维重建、基于运动序列的视频生成、多视角视频生成等任务。此外,他还提到了构建4D数据集的挑战以及风格转换的难度,以及如何通过科学的训练策略联合多种条件驱动视频生成,如音频和姿势信息在数字人生成中的应用。


在介绍完几项代表性工作后,浩杰总结了当前视频生成的现状:本次圆桌所讨论的方法针对的是更小、更具体的子任务。然而,这两个方向都需要大规模数据和计算能力来构建用于采样和实现预期结果的稳健分布。
对于特定任务的视频生成,构建此类数据集尤其具有挑战性。例如,通过运动引导或多摄像头设置生成视频需要大量的数据收集,如4D数据。因此,当前视频生成的首要挑战是数据创建。
条件建模无论是针对文本、音频还是其他引导——仍然相对简单。没有太多巧妙技巧的空间;大规模数据和模型优于复杂但扩展性较差的方法。这是当前的现状。
对于当下视频生成领域的研究者来说,首先考虑的是如何处理视频数据。目前的方法类似于图像处理,如基于patch的标记化以适应transformer架构,追溯到ViT。然而,这种方法对人类来说并不直观,因为人类是整体感知图像,而不是孤立地看待patch。去年的VAR通过模拟人类视觉——从远处的像素开始,逐渐放大,可谓是引入了新的研究视角,但这对于图像来说仍然具有挑战性,更不用说视频了。
根据人类的直觉,视频应该逐帧生成,并保持帧间关系。然而,当前有效的下一个标记预测方法,对于像文本这样的离散符号有效,但对于下一帧预测却失败了。这是一个值得探索的领域,正如LeCun在基础数据建模方面的工作所强调的。
对于个人开发者来说,参与大规模视频生成项目通常不切实际。即使是训练特定任务的模型也因数据收集障碍而困难重重。相反,我主张利用现有的视频生成模型,这些模型已经很好地捕捉了物理规则和人类直觉。
两种实用方法值得推荐:
轻量级适应:如ControlNet或T2i等方法旨在插入条件(例如,草图、深度图或运动流)而不影响模型性能。虽然将这些方法应用于视频更具挑战性,因为文本/音频相关性较弱,但这一方向可能会发展,因为特定任务的模型往往重复造轮子。
无需调优的方法:视频编辑是这方面的典型例子。与其收集大量数据集,不如通过微妙地操纵特征或向现有模型注入先验来实现编辑。这避免了从头开始训练新模型的资源密集型过程。
简而言之,该领域应优先考虑高效复用现有模型,而非冗余开发,再造新模型。
在应用层面,个人开发者可通过轻量化微调,如ControlNet或T2i等方法,利用现有模型开展特定任务。长视频生成时,可多次生成片段并注入特定条件保持一致性,但仍面临挑战。此外,如何借助现有模型,进一步提升图像生成视频的质量与效率,也是视频生成技术发展中需要探索的方向。
“煮茶时刻”:聊聊现有产品和技术的gap
圆桌第三部分开始由Gloria带领大家讨论视频生成产品与模型发展上的gap。讨论测评了几款国产产品的图像生成视频功能,通过上传相同图片和提示词,对比分析了几段生成的视频,主要从涉及镜头感、情绪捕捉、动作连贯性和物理细节等方面进行对比。
可灵:运镜感最棒
海螺ai:情绪最符合
即梦:配音最方便
清影:动作、情绪最连贯
vidu:物理细节最好
Gloria:目前有些视频生成产品的图生视频模块首尾帧是否是确保视频制定的关键因素,以及建模过程的难度如何?
浩杰:首尾帧需要模型建模两者之间的物理或逻辑关系,这个过程可能比仅提供一个首帧并让模型按照规则生成结果更具挑战性。增加尾帧后,模型需要构建因果关系,这相对更难。即使增加了尾帧,中间过程的连贯性仍难以保证,因为更强的约束可能使模型对物理规则的把握更加吃力。
Gloria:视频时长越长,一次性生成的挑战是否越高?目前感觉是越高的,尤其最后几秒拉跨概率不小
浩杰:视频时长越长,一次性生成的挑战确实越大。但这不仅取决于模型大小,还与压缩倍率有关。不过,通常情况下,模型需要处理更长的时间序列信息,任务难度随之增加。
视频时长的长短取决于模型规模和压缩倍率。压缩倍率越高,生成的视频可以越长,但任务难度也会相应增加。
闻星:浩杰老师能否为我们科普一下,不同参数量的模型需要多少资源才能生成多长或多高分辨率的视频?例如,在常规开发中,像Video这样的模型,其稳定输出通常在多少?
浩杰:这个我展开说下。像Video这样的模型,其稳定输出通常帧率大约为40帧,相当于大约2秒。最新模型的入门参数数量为50亿。训练数据集的确切大小尚不清楚,但很可能相当庞大。
在实际应用方面,生成视频所需的资源至关重要。对于50亿参数的模型,推理可能需要几GB的显存——可能大约10GB,尽管确切数字不确定。显存需求相对较高。对于本地部署,10GB或许可以应付,但可能需要高达24GB,这在消费级GPU的范围内。
闻星:确实,24GB消费级GPU代表了一个重要的门槛。
浩杰:对的,其实核心问题在于确定哪些开源模型可以在消费级GPU上运行,以及它们能够生成视频的质量。
在我看来,消费级GPU的上限可能处于混元Video的水平,我记得它大约有300亿个参数。资源消耗和输出质量之间的权衡是我认为最有趣的两个维度。
关于长视频生成,以往的方法通常通过一次生成一个片段来建模这个过程。这些方法旨在通过参考之前生成的片段信息来生成后续片段。虽然这是一种可行的方法,但它需要训练并存在某些挑战。
在训练过程中,我们使用不同长度的真实世界数据,但在生成过程中,我们必须参考之前生成的视频。这造成了生成视频和真实视频之间的显著分布差距,必须通过各种训练技术来解决这个问题。
这一范式理论上允许无限长度的视频生成,但由于这种分布差距,实际操作中会出现局限性。
由于分布差异导致的错误累积问题,生成的视频越长,物理规则破坏的程度就越严重。例如,在一分钟或几分钟后,这种破坏会更加明显。
闻星:什么是“Clip”?它指的是一个视频片段吗?能否解释一下这些片段的生成原理?比如,可以随便举一个模型来说明。
浩杰:我来解释下。考虑生成一个视频。通常情况下,对于一张图片,我们会使用当前的DiT架构对其进行分token。比如,我们可能会将其分解为32*32个token来表示这张图片。
在生成一个16帧的视频时,我们需要生成32*32乘以16帧。这个过程基本上就是这样运作的。然后,这个视频生成模型直接输出一个clip。
Gloria:我很好奇,目前视频生成的质量对提示词的依赖程度如何?我看我给前面几款视频生成产品喂的提示词里,其实有相当多的内容他没有识别到。
浩杰:我可以从一个理论的角度开始,因为我在视频生成方面的实践经验可能不如你丰富。我们的主要关注点在于我们的核心任务。
从基本的角度来看,生成过程涉及从分布中采样。这种采样本质上不需要提示,因为DDPM基本上是无条件的。然而,我们引入提示以符合人类指令。
通常,最高质量的输出——通过最小化与真实数据、图像或视频的偏差来衡量——是在没有提示的情况下实现的。更强的条件可能会降低质量,但这在模型训练过程中确定。提示质量是否影响推理尚不清楚。有经验的同学可以弹幕补充。
闻星:我对使用简短提示(比如单句)还是更长、更详细的提示,哪种方式能生成更符合物理规则的结果感到非常好奇。由于在这方面缺乏经验,我不确定是更多的约束还是更少的约束更可取。不过,我有兴趣进一步实验。
例如,我之前尝试根据诗句“春江潮水连海平,海上明月共潮生”来生成视频。当直接将这一诗句输入视频生成模型时,结果往往过于宽泛。然而,当我先使用DeepSeek或其他模型来扩展场景时,输出更好地捕捉到了诗意的画面——春江潮水和明月共同随潮水运动。
在这种情况下,利用大语言模型工具来详细描述场景似乎是必要的。虽然这种方法在这里效果不错,但可能并不普遍适用——有些单句提示如果没有额外上下文,可能无法有效转化为视频。
浩杰:这种艺术构思可能需要一个大模型来具体化成场景的文字描述。对于涉及角色情感变化和情节发展的场景,这种广泛的写作可能会对大型模型工具构成挑战,因为它们可能无法很好地处理。
Gloria:是的。之前,我的工作也展示了我是如何使用DeepSeek来制作提示的。
浩杰:我认为大部分信息尚未被充分消化,可能是由于训练不足所致。大胆猜测一下。
Gloria:来点“形而上”的讨论,从你们的角度来看,高质量的视频生成未来将在哪些方面展开竞争?可以从模型和产品两个维度进行探讨。
闻星:首先,我们可以将用户分为几类。第一类是专业的电影制作人和动画师。第二类是普通用户,他们只是想制作一些基础视频。视频生成模型降低了视频制作的门槛,使其对更广泛的受众变得可行。第三类包括像我这样的人——内容创作者或那些希望增加粉丝基数的人。
就我个人而言,我目前正在开发一个小工具,名为“paperscope”,它涉及视频生成。具体来说,输入是一篇研究论文,输出是一段完整的介绍该论文的视频。我的核心目标是增加观众数量。然而,我发现现有的平台并不能充分满足这一需求,因为它们更多地专注于总结论文,而不是直接从提示生成场景。
对于大型模型公司来说,他们的目标受众可能包括……我这种角色可能并不是他们主要争取的对象。他们的目标用户群体应该是广大的影视从业者。针对这两类用户群体,我们可以探讨他们的具体需求。
Gloria:从模型角度来看,张老师那边可以进一步讨论。
浩杰:尽管我使用视频生成模型的经验不多,但今天看到的例子让我意识到,当前的视频生成模型已经能够构建出符合物理规则的结果。不过,我认为还有两点需要改进:
第一,需要构建一个鲁棒性更强的模型,能够生成符合人类认知或物理规则的结果。第二,可控性非常重要。单纯依靠文本输入很难实现高度可控的效果。例如,GPT-4之所以受欢迎,就是因为它能根据用户需求不断调整输出结果。但在视频生成领域,我们可能需要结合文本和视觉输入,比如在图像上进行标注或修改,以获得更好的生成效果。这种多条件综合的方式对实际用户来说非常关键。
Gloria:最后一个比较有话题度的问题,两位认为视频生成产品的deepseek时刻还有多远?
浩杰:我认为关于以模型目前的成熟度,我认为短期内难以达到很高水平。当前视频生成模型存在底层理论缺陷,即使很多公司能实现分钟级生成或通过规则优化,很大程度上仍属于辅助工具。我更看好通过提示工程和易开发的模型来实现产品级别的创新。视频生成的“GPT时刻”可能更多出现在产品工具工程领域。
闻星:作为一名AI体验专家,我将努力整合各种人工智能技术的独特功能,以建立一个从研究论文到视频生成的流程。目前,我需要探索不同的视频生成工具,因为我并不完全熟悉其背后的原理。
虽然我无法提供一个确切的时间表,但我相信现有的模型能够实现上述功能。可能需要两到三周的探索来开发一个可行的流程。
正如浩杰老师所言,需要工程努力来探索利用GPT或DeepSeek级别产品的流程,这样的解决方案可能很快就会面世。
Gloria:好的,我们这边差不多了,邀请观众在评论区提出两个问题。看到已经有人发布了一个问题: “如果AR被广泛采用,图像生成或视频生成是否会经历类似于ARM的突发智能或类动物现象?例如,GPT-4的图像生成能力是否属于这一类?”浩杰:虽然我在AR方面的专业知识有限——因为我主要工作是计算机视觉——但我认为AR在训练方面提出了重大挑战。图像生成必须首先达到成熟阶段,然后才能有效发展视频生成。这是一个顺序性的进展。
闻星:让我补充问一个基本技术问题--AR 代表什么?
浩杰:哦,是自回归。像 GPT-4 这样的模型确实是自回归的,但自从他们没有发布技术报告以来,我没看到太多显著的特征。他们只发布了一个model card,不是吗?我在想他们是否会发布技术报告
模型介绍本质上是一份技术报告,尽管它只包含几句话。虽然它没有明确揭示是否使用了自回归(AR)建模,但我推测它可能涉及对图像进行分词,然后在这些词元之间建立因果或非因果关系。然而,对于图像来说,不同区块之间的因果关系——比如在这个例子中——相对较弱。
我认为这种建模方法不太可能是最终的解决方案。虽然我可以提供这些判断,但问题仍然存在:这种方法能推进到什么程度?它能达到像GPT这样的当前模型的性能水平吗?这仍然是不确定的。
Gloria:挺好,大家今天聊得还是很充分的。总结就是视频生成路虽险,但仍然值得AIGCer前赴后继,持续征服,毕竟距离人人拥有随心定制百万运镜的时刻确实还要等待。我们后续还会有其他AIGC的主题讨论!欢迎大家参与进来。
编辑整理&主持:Gloria
内容提供与校对:闻星、浩杰
联合直播:机智流