当 AI 艺术家真的出现在面前之后,你才能感受到这场浪潮的来势之快。
文 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
今年 2 月的时候,OpenAI 靠发布 Sora 给各大厂商提了个醒:“你们都得开始卷多模态模型了!”
随后的一年里,抖音快手等视频平台都推出了自家的类 Sora 模型,国内外还有各种开源的模仿 Sora 计划,在这场浪潮中,始作俑者 OpenAI 反而变成了最沉默的,深陷于版权纠纷的风云当中。
而追根溯源,国内首个纯自研的原创视频大模型,其实在四月份就已经出现了。来自生数科技和清华大学联合研发的 Vidu,在当时的中关村论坛上惊艳了全世界,吸引了不少外国网友。
随后,Vidu 在七月底上线,开放给全世界使用。当时给人印象深刻的是它在动漫视频方面的造诣,我一度认为它是“动漫版的 Sora”。在海外,Vidu 火到了日本,很多日本开发者就用它来创作一些动漫短片:
9 月 11 日早上,生数科技在北京举办了一场媒体开放日,发布了一项重磅功能:「主体参照」(Subject Consistency)。一言以蔽之,就是允许用户上传任意主体的一张图片,Vidu 能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。
比如上传一张马斯克的照片,它就能保持视频中马斯克形象的一致性和可控性。
你可能会觉得马斯克的脸对 AI 来说已经不稀奇了,但其实 Vidu 连这种原创动漫人物都可以“精准锁定”:
原图
视频
该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新,Vidu 也是全球首个支持该能力的视频大模型。
比如进行人物角色的“主体参照”,无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。
大家看似都是在今年二月份开始起跑,Vidu 怎么就领先了呢?
其实,生数科技这家公司其实早在 2023 年 3 月就成立了,是全球范围内最早从事扩散概率模型研究的团队之一。随后,他们的技术突破始于提出全球首个 Diffusion 与 Transformer 融合架构 U-ViT,这一架构与 OpenAI Sora 所使用的 DiT 架构在思想和技术细节上非常相似,都是 Diffusion 和 Transformer 的融合。生数科技 CEO 唐家渝表示,他们在 U-ViT 中引入了“长连接”技术,显著提升了训练收敛速度,减少了所需算力。
生数科技 CEO 唐家渝
决定架构之后,一个突出的挑战在这几个月里逐渐浮出水面 —— 如何在保持创意自由的同时,确保生成内容的连贯性和一致性?这个问题不仅困扰着新兴的 AI 公司,也是行业巨头们正在积极攻克的难题。
许多视频模型,尽管在长视频生成方面取得了显著突破,但用户反馈中仍不乏对角色外观变化和场景跳跃的吐槽。在涉及多场景转换或复杂情节的视频创作中,这些问题尤为明显。
为了应对这一挑战,业界曾尝试采用“分步生成”的策略。例如,先用 Stable Diffusion 或是 MidJourney 这些文生图模型生成关键帧,再用插帧技术生成视频的方法。然而,这种方法实际上无法提高一致性,还带来了工作量激增(需要人工 P 图或大量的局部重绘)和创意受限的问题。
另一种常见的尝试,是增强模型的条件控制能力。Meta 的 Make-A-Video 曾通过引入额外的控制信号来指导视频生成过程,但在处理长时间跨度和复杂场景变换时仍显不足。Google 的 Lumiere 则尝试通过空间-时间注意力机制来增强模型对全局一致性的把握,但在实际应用中仍存在改进空间。
面对这些挑战,一种新的思路正在兴起 —— 即通过单一参照物来贯穿整个视频生成过程。在这个背景下,Vidu 提出的“主体参照”代表了一种新的尝试。通过将单一图像作为主体参照,结合文本描述来直接生成完整视频,有望在保持一致性和提高创作自由度之间取得平衡,改变原有的创作范式。
唐家渝表示, “主体参照”这一全新功能的上线,还代表着 AI 完整叙事的开端,AI 视频创作也将迈向更高效、更灵活的阶段。无论是制作短视频、动画作品还是广告片,在叙事的艺术中,一个完整的叙事体系是“主体一致、场景一致、风格一致”等要素的有机结合。
不过,究竟有没有改变视频创作,其实还得是创作者亲自说了算。这次发布会令我比较惊喜的地方是,生数科技真的请了几位艺术家到了现场,分享 AI 融入视频创作的体验。这套操作,我们之前可以在 OpenAI 发布 Sora 的时候看到,萨姆·奥特曼请了一堆艺术家给 Sora 站台,同时自己跑去好莱坞和大导演谈合作。此外,AI 音乐生成平台 Suno 也整过类似的宣传,请了不少音乐创作者分享使用 Suno 的体验。
但这次,由中国的艺术家讲述 AI 视频创作的历程,确是比较少见。我从他们分享的创作历程中,总结出了一套流程:
创作过程始于确定风格和主题,编写大纲;
使用 MidJourney 等工具生成初始图片,这个过程往往需要大量尝试,废片比高达 50:1,每生成 50 张图片里可能就 1 张能用;
开始安排分镜,利用 Vidu 将这些图片转化为视频片段;
再用 Suno 等 AI 音乐生成工具,创作配乐;
最后,通过精心的剪辑,整合成完整的作品。
整套流程里,编与导合二为一,还节省了大量的人力。有位艺术家还总结出了一套心得,她称之为“物的转向”:正如每次技术革新都会引发内容的新浪潮,AIGC 的出现不仅改变了创作方式,更带来了全新的内容形态。AIGC 最显著的特点是其与内容的互动性,这种互动不再局限于传统的人机交互,而是呈现出一种拟人化的特质。这种变化深刻地影响了人与物质世界的关系,开启了一个充满可能性的新领域。这种新型互动究竟能带来哪些具体的应用场景,她目前还难以给出明确答案。
那么,这样的工具出现,究竟意味着什么?针对这个问题,现在我们经常能听到一个近乎套路化的答案:“降低视频和动画的制作门槛,让每个普通人都有机会把想法变成作品。” 但现实是,C 端消费者市场像一道坚守不开的关卡,始终没有 AIGC 的「杀手级应用」能闯出去。为此,CSDN 向唐家渝提出了两道问题,以期探讨 Vidu 及类似 AI 视频生成工具的未来发展方向。这些问题不仅涉及了技术层面的可能性,也触及了 AI 视频工具在商业化和普及化过程中面临的挑战。
首先,关于 LoRA(Low-Rank Adaptation)在视频生成模型中的应用前景。这是一种高效的模型微调技术,它通过添加少量可训练参数来适应特定任务,而无需修改原始大型模型的所有参数。现在,LoRA 已经成为了 AI 生图玩家们的“灵丹妙药”,插件装上,就能提高数倍画质。如下图,左边是前段时间爆火的开源模型 FLUX 的原生水平,而右边就是 LoRA 微调之后的结果:
再就是之前 FLUX “一战成名”的这张以假乱真的图片,也是 LoRA 的功劳:
再用 Runway 模型做成视频,完全分辨不出真假:
问题这就来了。被图像生成领域视为珍宝的 LoRA,是否也适用于视频生成?唐家渝给 CSDN 的回答相当明确:虽然 LoRA 等微调技术在当前阶段可能会有限度地提供支持,但从长远来看,这只是一个过渡性的解决方案。
他表示,Vidu 团队的目标是从模型底层不断提升通用性,最终达到一个无需特定微调就能精准理解用户需求的境界。这种思路反映了 AI 技术发展的一个重要趋势:从特定任务的优化向通用智能的演进。然而,这种理想化的愿景与当前市场需求之间仍存在差距。如唐家渝所言,在模型能力尚未完全满足高要求客户需求的阶段,他们仍会为长期客户提供有限的定制训练支持。
其次,关于扩大 AI 视频工具应用性的问题,特别是针对 C 端市场的普及化挑战。目前包括 Sora 在内的视频模型,仍局限于生成较短片段。那么回顾前文,艺术家们进行 AI 视频创作的最后一步,其实便是剪辑。这就要求用户具备一定的剪辑技能才能创作出完整作品,无疑提高了普通用户的使用门槛,限制了 AI 视频工具在 C 端市场的普及。
对此,唐家渝的回答展现了 Vidu 的战略重点:他们选择专注于自身的核心优势,即提升底层模型的生成能力。这一策略基于两个考虑:一是市面上已有大量成熟的剪辑工具,甚至于我们在发布小红书或者微博的时候,软件已经内置了一个轻剪辑的功能,所以再去重复开发意义不大;二是通过提升模型的生成能力,可以实现更长、更连贯的视频片段直接生成,从而减少后期剪辑的需求。
“实际上我们可以通过一个端到端视频片段,直接包含中间自动化过渡。”
唐家渝提到的“端到端视频片段”概念,即通过一次生成包含多个场景和自动过渡的完整视频。如果成功实现,将大大简化创作流程,使得即便是缺乏专业剪辑技能的普通用户也能轻松创作出连贯的视频内容。
随着生成能力的提升和使用门槛的降低,我们或许正在接近一个临界点,届时 AI 视频创作工具将真正走入普通用户的日常生活。
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。