360AI团队开源视频模型FancyVideo：在RTX 3090上定制你的AI视频-CSDN博客

由 360AI 团队和中山大学联合提出的 FancyVideo 是一种基于 UNet 架构的视频生成模型。该模型同时具备文生视频和图生视频功能，在消费级显卡（如 GeForce RTX 3090）上最高可生成 125 帧 1080p 的视频。

此外，该模型还具备下述特点：可生成任意分辨率、宽高比的视频；可基于不同 SD 底模生成不同风格化的视频；可人工控制视频生成的运动幅度；衍生模型可完成视频扩展 & 回溯的功能。妥妥的商业化神器有木有？！

然鹅，该项目已经完全开开开开源了！什么情况？！话不多说：

看效果：

https://360cvgroup.github.io/FancyVideo/

读论文：

https://arxiv.org/abs/2408.08189

扒代码：

https://github.com/360CVGroup/FancyVideo

论文摘要

合成运动丰富且时序一致的视频仍是 AI 领域的挑战之一。现有的文本到视频（T2V）模型通常采用空间交叉注意力进行文本控制，将文本等价地引导至不同帧的生成过程中，缺乏对于不同帧的灵活性文本引导。因此，模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。

为解决这一限制，我们提出了一种新的视频生成模型：FancyVideo。它通过特别设计的跨帧文本引导模块（Cross-frame Textual Guidance Module，CTGM，如下图）改进了现有文本控制机制。

具体来说，CTGM 分别在交叉注意力的开始、中间和结束处引入了时序信息注入器（Temporal Information Injector，TII）、时序特征提取器（Temporal Affinity Refiner，TAR）和时序特征增强器（Temporal Feature Booster，TFB），以实现特定框架的文本引导。

首先，TII 将来自潜在特征的帧特定信息注入文本条件中，从而获得跨帧文本条件。然后，TAR 沿着时间维度细化跨帧文本条件与潜在特征之间的相关矩阵。最后，TFB 增强了潜在特征的时间一致性。经过大量的定量实验和定性评估，证明了 FancyVideo 的有效性。

论文方法

FancyVideo 整体 Pipeline 如上图。该方法选择了在 2D T2I 模型基础上插入时序层和运动性模块的方式构造 3D T2V 模型。为保存原有 T2I 模型能力，T2V 模型在生成视频时先基于 T2I 模型生成首帧，再进行 I2V 操作。

这样做好处是，一方面生成视频整体画质更高；另一方面所需训练数据量和训练代价更低。在进行运动性模块计算时，FancyVideo 采用特别设计的跨帧文本引导模块（CTGM），这大大提高了生成视频的运动性和时序一致性。

此外，FancyVideo 在训练时将基于 RAFT 提取的视频运动信息（motion score）和 time embedding 一起注入到网络中，从而实现对运动幅度的控制；为生成更多连续帧，FancyVideo 采用了CV-VAE 对视频进行编解码；为生成更高分辨率的视频且保留原本 SD 1.5 的能力，FancyVideo 引入了 Res-Adapter 对 SD 1.5 进行了"武装"。FancyVideo 采用了 10M 开源数据 WebVid 和 4M 自研数据训练模型即获得了运动丰富且一致性强的视频结果。

论文实验

论文在 EvalCrafter Benchmark 上定量比较了 FancyVideo 模型和一众其他 T2V 模型，可以看到 FancyVideo 在视频生成质量、文本一致性、运动性和时序一致性方面均处于领先位置。

论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测，在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。

此外，论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法进行了人工评测，结果显示在视频生成质量、文本一致性、运动性和时序一致性角度 FancyVideo 均处于领先。

最后，论文中采用消融实验探究了 CTGM 的不同子模块对于视频生成结果的影响，以验证各个子模块的合理性和有效性。

生成效果

基于已经开源的 61-frame 模型在 RTX 3090 上进行推理，按照 25fps 输出，生成视频如下：

生成不同分辨率的视频：

61* 768 * 768

A happy elephant wearing a birthday hat walking under the sea.

61* 1024 * 768

Teddy bear surfer rides the wave in the tropics.

61* 768* 1024

Impressionist style, a yellow rubber duck floating on the wave on the sunset.

61* 1024 * 1024

A confused grizzly bear in calculus class.

基于不同 SD 1.5 底模生成不同风格的视频：

Realcartoon3d

Girl with really wild hair,mane,multicolored hairlighting,(from front:0.6).

22 years old Spanish woman, medium breast,wearing flowing dress,golden brown flowing hair glamour

Toonyou

1girl, collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, ((intricate, print, pattern)), ponytail, freckles, red hair, dappled sunlight, smile, happy,

(masterpiece, best quality), 1boy, jacket, beard, walking, beanie, sunglasses, ((from below, looking up, fisheye)), upper body, wasteland, sunset, solo focus, cloudy sky, backpack, hands in pockets

PixarsRendman

(pixarstyle), masterpiece, best quality, 1woman, Ebony, 35-years-old, closeup shot, in red elegant dress, [jazz club]

(pixarstyle), masterpiece, best quality, a shady businessman with a briefcase at a back alley

结论

相比于目前大火的 SORA 类视频生成模型，FancyVideo 显得更"经济实惠"。此外，FancyVideo 具有很强的扩展性且可以充分利用 SD 社区的能力。然而，受限于模型本身能力、Video VAE 性能、训练数据等因素的影响，FancyVideo 在测试更高分辨率和更多帧的情况下不可避免地出现了畸变扭曲等现象。相信随着工作的开源，在社区的力量下，该模型在未来会解决这些问题。

更多阅读