视频生成领域最新开源!360 AI团队提出FancyVideo:在消费级显卡上定制你的AI视频!...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

95918074f8320897e1866ecbb5b04d65.png

2ebf2e25a3af9f6dbd5200541a25e5a1.png

由360AI团队和中山大学联合提出的FancyVideo是一种基于UNet架构的视频生成模型。该模型同时具备文生视频和图生视频功能,在消费级显卡(如GeForce RTX 3090)上最高可生成125帧1080p的视频。此外,该模型还具备下述特点:可生成任意分辨率、宽高比的视频;可基于不同SD底模生成不同风格化的视频;可人工控制视频生成的运动幅度;衍生模型可完成视频扩展 & 回溯的功能。妥妥的商业化神器有木有?!然鹅,该项目已经完全开开开开源了!什么情况?!话不多说:

主页:360cvgroup.github.io/FancyVideo/

论文:https://arxiv.org/abs/2408.08189

代码:github.com/360CVGroup/FancyVideo

论文摘要:

合成运动丰富且时序一致的视频仍是AI领域的挑战之一。现有的文本到视频(T2V)模型通常采用空间交叉注意力进行文本控制,将文本等价地引导至不同帧的生成过程中,缺乏对于不同帧的灵活性文本引导。因此,模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。为解决这一限制,我们提出了一种新的视频生成模型:FancyVideo。它通过特别设计的跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM, 如下图)改进了现有文本控制机制。具体来说,CTGM分别在交叉注意力的开始、中间和结束处引入了时序信息注入器(Temporal Information Injector, TII)、时序特征提取器(Temporal Affinity Refiner, TAR)和时序特征增强器(Temporal Feature Booster, TFB),以实现特定框架的文本引导。首先,TII将来自潜在特征的帧特定信息注入文本条件中,从而获得跨帧文本条件。然后,TAR沿着时间维度细化跨帧文本条件与潜在特征之间的相关矩阵。最后,TFB增强了潜在特征的时间一致性。经过大量的定量实验和定性评估,证明了Fancy Video的有效性。   

7f81937497e48cbaf3dc9f05bbc00c8d.png

论文方法:   

1cb34a8df535432167692bdda39dcde8.png

FancyVideo整体Pipeline如上图。该方法选择了在2D T2I模型基础上插入时序层和运动性模块的方式构造3D T2V模型。为保存原有T2I模型能力,T2V模型在生成视频时先基于T2I模型生成首帧,再进行I2V操作。这样做好处是,一方面生成视频整体画质更高;另一方面所需训练数据量和训练代价更低。在进行运动性模块计算时,FancyVideo采用特别设计的跨帧文本引导模块(CTGM),这大大提高了生成视频的运动性和时序一致性。

此外,FancyVideo在训练时将基于RAFT提取的视频运动信息(motion score)和time embedding一起注入到网络中,从而实现对运动幅度的控制;为生成更多连续帧,FancyVideo采用了CV-VAE对视频进行编解码;为生成更高分辨率的视频且保留原本SD 1.5的能力,FancyVideo引入了Res-Adapter对SD 1.5进行了"武装"。FancyVideo采用了10M开源数据WebVid和4M自研数据训练模型即获得了运动丰富且一致性强的视频结果。

论文实验:   

论文在EvalCrafter Benchmark上定量比较了FancyVideo模型和一众其他T2V模型,可以看到FancyVideo在视频生成质量、文本一致性、运动性和时序一致性方面均处于领先位置。

0e9543e11d37d0149c3734f204401527.png

论文还在UCF-101和MSR-VTT Benchmark上进行了Zero-shot的评测,在衡量生成视频丰富性的IS指标和文本一致性的CLIPSIM指标均取得了SOTA结果。   

66439fb177c89f642fe986224a385a83.png

此外,论文还基于FancyVideo模型的T2V和I2V能力分别和前人方法进行了人工评测,结果显示在视频生成质量、文本一致性、运动性和时序一致性角度FancyVideo均处于领先。

a196d2a2eded4f056857b054ad49857b.png    

最后,论文中采用消融实验探究了CTGM的不同子模块对于视频生成结果的影响,以验证各个子模块的合理性和有效性。

944b00079c5dfd800a437c16377e06c6.png

生成效果:

基于已经开源的61-frame模型在RTX 3090上进行推理,按照25fps输出,生成视频如下:

生成不同分辨率的视频:

61 * 768 * 768

A happy elephant wearing a birthday hat walking under the sea.

61 * 1024 * 768

Teddy bear surfer rides the wave in the tropics.

61 * 768* 1024    

Impressionist style, a yellow rubber duck floating on the wave on the sunset.

61 * 1024 * 1024

A confused grizzly bear in calculus class.

基于不同SD 1.5底模生成不同风格的视频:

Realcartoon3d

Girl with really wild hair,mane,multicolored hairlighting,(from front:0.6).

22 years old Spanish woman, medium breast,wearing flowing dress,golden brown flowing hair glamour

Toonyou

1girl, collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, ((intricate, print, pattern)), ponytail, freckles, red hair, dappled sunlight, smile, happy,    

(masterpiece, best quality), 1boy, jacket, beard, walking, beanie, sunglasses, ((from below, looking up, fisheye)), upper body, wasteland, sunset, solo focus, cloudy sky, backpack, hands in pockets

PixarsRendman

(pixarstyle), masterpiece, best quality, 1woman, Ebony, 35-years-old, closeup shot, in red elegant dress, [jazz club]

(pixarstyle), masterpiece, best quality, a shady businessman with a briefcase at a back alley

结论:

相比于目前大火的SORA类视频生成模型,FancyVideo显得更"经济实惠"。此外,FancyVideo具有很强的扩展性且可以充分利用SD社区的能力。然而,受限于模型本身能力、Video VAE性能、训练数据等因素的影响,FancyVideo在测试更高分辨率和更多帧的情况下不可避免地出现了畸变扭曲等现象。相信随着工作的开源,在社区的力量下,该模型在未来会解决这些问题。   

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值