360AI团队开源视频模型FancyVideo:在RTX 3090上定制你的AI视频

ecfd71475aa4a534effed273db8c54c8.gif

由 360AI 团队和中山大学联合提出的 FancyVideo 是一种基于 UNet 架构的视频生成模型。该模型同时具备文生视频和图生视频功能,在消费级显卡(如 GeForce RTX 3090)上最高可生成 125 帧 1080p 的视频。

此外,该模型还具备下述特点:可生成任意分辨率、宽高比的视频;可基于不同 SD 底模生成不同风格化的视频;可人工控制视频生成的运动幅度;衍生模型可完成视频扩展 & 回溯的功能。妥妥的商业化神器有木有?!

然鹅,该项目已经完全开开开开源了!什么情况?!话不多说:

4c87e8b925b7c9a46a56fa6129030aba.png

看效果:

https://360cvgroup.github.io/FancyVideo/

读论文:

https://arxiv.org/abs/2408.08189

扒代码:

https://github.com/360CVGroup/FancyVideo

48a9941c538483196b4011c7b2fa90f0.png

论文摘要

合成运动丰富且时序一致的视频仍是 AI 领域的挑战之一。现有的文本到视频(T2V)模型通常采用空间交叉注意力进行文本控制,将文本等价地引导至不同帧的生成过程中,缺乏对于不同帧的灵活性文本引导。因此,模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。

为解决这一限制,我们提出了一种新的视频生成模型:FancyVideo。它通过特别设计的跨帧文本引导模块(Cross-frame Textual Guidance Module,CTGM,如下图)改进了现有文本控制机制。

具体来说,CTGM 分别在交叉注意力的开始、中间和结束处引入了时序信息注入器(Temporal Information Injector,TII)、时序特征提取器(Temporal Affinity Refiner,TAR)和时序特征增强器(Temporal Feature Booster,TFB),以实现特定框架的文本引导。

首先,TII 将来自潜在特征的帧特定信息注入文本条件中,从而获得跨帧文本条件。然后,TAR 沿着时间维度细化跨帧文本条件与潜在特征之间的相关矩阵。最后,TFB 增强了潜在特征的时间一致性。经过大量的定量实验和定性评估,证明了 FancyVideo 的有效性。

9533fb959058806b2eae9485839de977.png

72f4a8005df1b42fd0d29e8473a6714b.png

论文方法

1ca60ade9d0476ecbe1e12ac79771e80.png

FancyVideo 整体 Pipeline 如上图。该方法选择了在 2D T2I 模型基础上插入时序层和运动性模块的方式构造 3D T2V 模型。为保存原有 T2I 模型能力,T2V 模型在生成视频时先基于 T2I 模型生成首帧,再进行 I2V 操作。

这样做好处是,一方面生成视频整体画质更高;另一方面所需训练数据量和训练代价更低。在进行运动性模块计算时,FancyVideo 采用特别设计的跨帧文本引导模块(CTGM),这大大提高了生成视频的运动性和时序一致性。

此外,FancyVideo 在训练时将基于 RAFT 提取的视频运动信息(motion score)和 time embedding 一起注入到网络中,从而实现对运动幅度的控制;为生成更多连续帧,FancyVideo 采用了CV-VAE 对视频进行编解码;为生成更高分辨率的视频且保留原本 SD 1.5 的能力,FancyVideo 引入了 Res-Adapter 对 SD 1.5 进行了"武装"。FancyVideo 采用了 10M 开源数据 WebVid 和 4M 自研数据训练模型即获得了运动丰富且一致性强的视频结果。

53389eca271c48426c49b7026ff2b8a3.png

论文实验

论文在 EvalCrafter Benchmark 上定量比较了 FancyVideo 模型和一众其他 T2V 模型,可以看到 FancyVideo 在视频生成质量、文本一致性、运动性和时序一致性方面均处于领先位置。

f43228803fc40a651239774ef078cbe0.png

论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测,在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。

e3e738a51dbc4185875210b7bfbf5fc9.png

此外,论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法进行了人工评测,结果显示在视频生成质量、文本一致性、运动性和时序一致性角度 FancyVideo 均处于领先。

5e9eed2c2cc2630a9bb3fc8cd2011ca2.png

最后,论文中采用消融实验探究了 CTGM 的不同子模块对于视频生成结果的影响,以验证各个子模块的合理性和有效性。

c6799b763f767d3e313042008e4c0e15.png

2185098fd419e47aa9b83178366623f5.png

生成效果

基于已经开源的 61-frame 模型在 RTX 3090 上进行推理,按照 25fps 输出,生成视频如下:

生成不同分辨率的视频:

61* 768 * 768

A happy elephant wearing a birthday hat walking under the sea.

61* 1024 * 768

Teddy bear surfer rides the wave in the tropics.

61* 768* 1024

Impressionist style, a yellow rubber duck floating on the wave on the sunset.

61* 1024 * 1024

A confused grizzly bear in calculus class.

基于不同 SD 1.5 底模生成不同风格的视频:

Realcartoon3d

Girl with really wild hair,mane,multicolored hairlighting,(from front:0.6).

22 years old Spanish woman, medium breast,wearing flowing dress,golden brown flowing hair glamour

Toonyou

1girl, collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, ((intricate, print, pattern)), ponytail, freckles, red hair, dappled sunlight, smile, happy,

(masterpiece, best quality), 1boy, jacket, beard, walking, beanie, sunglasses, ((from below, looking up, fisheye)), upper body, wasteland, sunset, solo focus, cloudy sky, backpack, hands in pockets

PixarsRendman

(pixarstyle), masterpiece, best quality, 1woman, Ebony, 35-years-old, closeup shot, in red elegant dress, [jazz club]

(pixarstyle), masterpiece, best quality, a shady businessman with a briefcase at a back alley

4be7c364a835445bbe20718319af1e72.png

结论

相比于目前大火的 SORA 类视频生成模型,FancyVideo 显得更"经济实惠"。此外,FancyVideo 具有很强的扩展性且可以充分利用 SD 社区的能力。然而,受限于模型本身能力、Video VAE 性能、训练数据等因素的影响,FancyVideo 在测试更高分辨率和更多帧的情况下不可避免地出现了畸变扭曲等现象。相信随着工作的开源,在社区的力量下,该模型在未来会解决这些问题。

更多阅读

07bf61d1810a9784862ced52decff974.png

0cedf8247e0b1ea6ac4d9f5dbb6a7d23.png

c0f2c6417c5f404391e935354a8dd2de.png

8643c3588699d401fec4d1e9394bfb50.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

e695aa56b19f2142077047717ea52d1d.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

bac963bd16bb05a0543fe7f7b5ca8603.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值