国产AI导演贼6,短视频镜头和物体各动各的|港城大&快手&天大

‍西风 发自 凹非寺
量子位 | 公众号 QbitAI

快手发力AI视频,参与开发了一个智能“导演”。

Direct-a-Video,成功解耦AI生成视频中物体运动摄像机运动,让灵活性和可控性大大增强!

不信,来欣赏一波作品。

短视频中的镜头移动方向全凭导演指令,水平(X轴)、垂直(Y轴)、变焦必须精准:

5d63333c2406c8956f36902556c33f2f.gif

AI导演还上演了一出炫技,镜头移动方向混合水平、垂直:

5c32c1943a4c5b839cb5d3ad13d63bf8.gif

混合水平、变焦运动效果也可以

c35aebdaa400795a4402d7faab004152.gif

此外,导演还要求视频中的每个“演员”都能按照绘制的框框运动:

dce41bee74eb6db4e899008704fd188e.gif

达到镜头移动和演员运动合一的效果。

比如,大熊原地太空漫步,镜头水平和垂直移动实现整体视频运动效果:

88b0c7c1a391af56eb92a92c1e88820a.gif

当然大熊的位置也可以通过绘制带箭头的框框,从一个地方移动到另一个地方:

54f58e7817c41f86706151dd5d0df31f.gif

甚至还能同时分别控制多个“演员”的移动路径:

bbf8ed0f98aafa13e67d61466b57ec64.gif

这就是香港城市大学、快手科技、天津大学研究团队共同提出的Direct-a-Video文本-视频生成框架的效果展示。

95eb097f07a8a65bf339fe04648cf288.png

怎么做到的?

具体来说,Direct-a-Video分为两个板块——

在训练阶段,学习相机移动控制;在推理阶段,实现物体运动控制。

cd2ea56243f565a0a1d0f955f7d47d15.png

在实现相机移动控制时,研究人员采用了预训练的ZeroScope文本到视频模型作为基础模型,并引入新的可训练时间自注意力层(相机模块),将由Fourier编码和MLP映射的平移和变焦参数嵌入注入其中。

训练策略是在有限数据上,使用数据增广的自监督训练方式学习相机模块,无需人工运动标注

其中数据增广通俗来讲,就是添加已有数据的略微修改版,或从现有数据中创建新的合成数据来增加数据量:

e4f9adab6cf1c3e36890036710b890a6.png

经过自监督训练后,该模块可以解析相机运动参数实现定量控制。

60af1a764ce2c13fb84b929af0f3ba62.gif

实现物体运动控制时,不需要额外的数据集和训练,只需用户简单绘制首末帧框和中间轨迹即可定义物体运动。

简单来说,直接在推理时采用基于像素的自注意力增强和抑制,分时阶段调控每帧内各对象的自注意力分布,从而使对象生成到用户通过一系列框指定的位置,实现物体运动轨迹控制。

8d18ec4e58152646ae3c9b6ea5d03efe.gif

值得一提的是,相机移动控制和物体运动控制互相独立,允许单独或联合控制。

Direct-a-Video效果如何?

研究人员将Direct-a-Video与多基准对比验证了该方法的有效性。

相机移动控制评估

Direct-a-Video与AnimateDiff和VideoComposer对比结果如下:

b496cdd10c953bdbf910b1d5086af400.png

Direct-a-Video在生成质量、相机移动控制精度上均优于基线:

30b0a7928611f22e829e12583a57c771.png

物体运动控制评估

Direct-a-Video与VideoComposer和Peekaboo对比,验证了本方法在多物体及运动场景下的控制能力。

768faa898a482c0b52cc828671b171b4.png

在生成质量和物体运动控制精度上优于VideoComposer:

ad37f153dda8248ae7a6e508aeb73d08.png

网友看到效果直呼因锤斯汀:

除Runway外,又多了一种新选择。

e99a24a06266ee8852924e67c16c0071.png

PS:

Runway Gen-2“运动笔刷”(Motion Brush),涂哪儿动哪儿,同样可调整参数控制运动方向:

4a6ba298d5b5016e691ca0330e4efcdc.gif

参考链接:
[1]https://x.com/dreamingtulpa/status/1756246867711561897?s=20
[2]https://arxiv.org/abs/2402.03162

—  —

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值