视频生成领域最新开源！360AI团队提出FancyVideo：在消费级显卡上定制你的AI视频！...

AITIME论道

于 2024-08-23 18:03:20 发布

阅读量39

点赞数

文章标签：音视频人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247527063&idx=1&sn=c75975e6846c971008e4920fa5e0f21b&chksm=e8300552a23f6ccef4aa36511358f0d1794e98e7d830f895f2aef74e4c93012f744f6d01665e&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作者简介

Ao Ma，

硕士毕业于中科院计算所, 曾在MSRA视觉计算组和阿里通义实验室进行学术研究和算法落地工作。

目前是奇虎360-AIGC团队-视频生成方向的负责人, 他和他的小伙伴们长期致力于视觉生成方向的算法落地和开源社区的建设。

概述

由360AI团队和中山大学联合提出的FancyVideo是一种基于UNet架构的视频生成模型。该模型同时具备文生视频和图生视频功能，在消费级显卡（如GeForce RTX 3090）上最高可生成125帧1080p的视频。此外，该模型还具备下述特点：可生成任意分辨率、宽高比的视频；可基于不同SD底模生成不同风格化的视频；可人工控制视频生成的运动幅度；衍生模型可完成视频扩展 & 回溯的功能。妥妥的商业化神器有木有？！然鹅，该项目已经完全开开开开源了！什么情况？！话不多说：

看效果：

https://360cvgroup.github.io/FancyVideo/

读论文：

https://arxiv.org/abs/2408.08189

扒代码：

https://github.com/360CVGroup/FancyVideo

论文摘要

合成运动丰富且时序一致的视频仍是AI领域的挑战之一。现有的文本到视频（T2V）模型通常采用空间交叉注意力进行文本控制，将文本等价地引导至不同帧的生成过程中，缺乏对于不同帧的灵活性文本引导。因此，模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。为解决这一限制，我们提出了一种新的视频生成模型：FancyVideo。它通过特别设计的跨帧文本引导模块（Cross-frame Textual Guidance Module, CTGM, 如下图）改进了现有文本控制机制。具体来说，CTGM分别在交叉注意力的开始、中间和结束处引入了时序信息注入器（Temporal Information Injector, TII）、时序特征提取器（Temporal Affinity Refiner, TAR）和时序特征增强器（Temporal Feature Booster, TFB），以实现特定框架的文本引导。首先，TII将来自潜在特征的帧特定信息注入文本条件中，从而获得跨帧文本条件。然后，TAR沿着时间维度细化跨帧文本条件与潜在特征之间的相关矩阵。最后，TFB增强了潜在特征的时间一致性。经过大量的定量实验和定性评估，证明了FancyVideo的有效性。

论文方法

FancyVideo整体Pipeline如上图。该方法选择了在2D T2I模型基础上插入时序层和运动性模块的方式构造3D T2V模型。为保存原有T2I模型能力，T2V模型在生成视频时先基于T2I模型生成首帧，再进行I2V操作。这样做好处是，一方面生成视频整体画质更高；另一方面所需训练数据量和训练代价更低。在进行运动性模块计算时，FancyVideo采用特别设计的跨帧文本引导模块（CTGM），这大大提高了生成视频的运动性和时序一致性。

此外，FancyVideo在训练时将基于RAFT提取的视频运动信息（motion score）和time embedding一起注入到网络中，从而实现对运动幅度的控制；为生成更多连续帧，FancyVideo采用了CV-VAE对视频进行编解码；为生成更高分辨率的视频且保留原本SD 1.5的能力，FancyVideo引入了Res-Adapter对SD 1.5进行了"武装"。FancyVideo采用了10M开源数据WebVid和4M自研数据训练模型即获得了运动丰富且一致性强的视频结果。

论文实验

论文在EvalCrafter Benchmark上定量比较了FancyVideo模型和一众其他T2V模型，可以看到FancyVideo在视频生成质量、文本一致性、运动性和时序一致性方面均处于领先位置。

论文还在UCF-101和MSR-VTT Benchmark上进行了Zero-shot的评测，在衡量生成视频丰富性的IS指标和文本一致性的CLIPSIM指标均取得了SOTA结果。

此外，论文还基于FancyVideo模型的T2V和I2V能力分别和前人方法进行了人工评测，结果显示在视频生成质量、文本一致性、运动性和时序一致性角度FancyVideo均处于领先。

最后，论文中采用消融实验探究了CTGM的不同子模块对于视频生成结果的影响，以验证各个子模块的合理性和有效性。

生成效果

基于已经开源的61-frame模型在RTX 3090上进行推理，按照25fps输出，生成视频如下：

生成不同分辨率的视频：

61 * 768 * 768

A happy elephant wearing a birthday hat walking under the sea.

61 * 1024 * 768

Teddy bear surfer rides the wave in the tropics.

61 * 768* 1024

Impressionist style, a yellow rubber duck floating on the wave on the sunset.

61 * 1024 * 1024

A confused grizzly bear in calculus class.

基于不同SD 1.5底模生成不同风格的视频：

Realcartoon3d

Girl with really wild hair,mane,multicolored hairlighting,(from front:0.6).

22 years old Spanish woman, medium breast,wearing flowing dress,golden brown flowing hair glamour

Toonyou

1girl, collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, ((intricate, print, pattern)), ponytail, freckles, red hair, dappled sunlight, smile, happy,

(masterpiece, best quality), 1boy, jacket, beard, walking, beanie, sunglasses, ((from below, looking up, fisheye)), upper body, wasteland, sunset, solo focus, cloudy sky, backpack, hands in pockets

PixarsRendman

(pixarstyle), masterpiece, best quality, 1woman, Ebony, 35-years-old, closeup shot, in red elegant dress, [jazz club]

(pixarstyle), masterpiece, best quality, a shady businessman with a briefcase at a back alley

结论

相比于目前大火的SORA类视频生成模型，FancyVideo显得更"经济实惠"。此外，FancyVideo具有很强的扩展性且可以充分利用SD社区的能力。然而，受限于模型本身能力、Video VAE性能、训练数据等因素的影响，FancyVideo在测试更高分辨率和更多帧的情况下不可避免地出现了畸变扭曲等现象。相信随着工作的开源，在社区的力量下，该模型在未来会解决这些问题。

往期精彩文章推荐

KDD2024 | GCOPE：港科广联合港中文提出首个跨域图预训练框架

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 查看更多！

AITIME论道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
视频生成领域最新开源！360AI团队提出FancyVideo：在消费级显卡上定制你的AI视频！...

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！作者简介Ao Ma，硕士毕业于中科院计算所, 曾在MSRA视觉计算组和阿里通义实验室进行学术研究和算法落地工作。目前是奇虎360-AIGC团队-视频生成方向的负责人, 他和他的小伙伴们长期致力于视觉生成方向的算法落地和开源社区的建设。概述由360AI团队和中山大学联合提出的FancyVideo是一种基于UNet架构的视频生成模型。该模型同...
复制链接

扫一扫