Stable Video Diffusion 3D合成功能引关注,网友:进步太快

西风 发自 凹非寺  量子位 | 公众号 QbitAI

Stable Diffusion官方终于对视频下手了——

发布生成式视频模型Stable Video Diffusion(SVD)

24140afb5d047469c4882862aad7f2b9.png

Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成:

d5bec9992fc5e41f089463da5aa16205.gif

并且还支持物体从单一视角到多视角的转化,也就是3D合成

50ced0e24fd64885a8f7b58f6c5afff8.gif

根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。

虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。

目前论文代码权重已上线。

068aea1b241fb818e1d66a5aa35f7644.png

最近视频生成领域不断出现新玩法,这次轮到Stable Diffusion下场,以至于网友们的第一反应就是“快”,进步太快!

749104a55e79de0a0efc48b3923bd344.png

但仅从Demo效果来说,更多网友们表示并没有感到很惊喜。

虽然我喜欢SD,而且这些Demo也很棒……但也存在一些缺陷,光影不对、而且整体不连贯(视频帧与帧之间闪烁)。

b8e6971214f7973f6da0de7baa9d604a.png

总归来说这是个开始,网友对SVD的3D合成功能还满是看好:

我敢打赌,很快就会有更好的东西出来,到时候只要描述一下,就会得到一个完整的3D场景。

79de88c9a6a4ab9b62fe80b755efd6d1.png

SD视频官方版来袭

除了上面展示的,官方还发布了更多Demo,先来看一波:

b3c0d79234cc6d1d95cb60ece69045d8.gif

太空漫步也安排上:

ecac018d05a4e6a2cd6769646add0d20.gif

背景不动,只让两只鸟动也可以:

cb7e5adeb9310070fa0f880ed2c2e4f3.gif

SVD的研究论文目前也已发布,据介绍SVD基于Stable Diffusion 2.1,用约6亿个样本的视频数据集预训练了基础模型。

可轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。

微调后,官方公布的是两种图像到视频模型,可以以每秒3到30帧之间的自定义帧速率生成14(SVD)和25帧(SVD-XT)的视频:

d01fa4c90dd8d2125c06143499c307bd.png

之后又微调了多视角视频生成模型,叫做SVD-MV:

a92cccb61c8fdd0944b46cad9c262d84.png

根据测试结果,在GSO数据集上,SVD-MV得分优于多视角生成模型Zero123、Zero123XL、SyncDreamer:

ec5564d77459f9bf304276c1ceca1566.png

值得一提的是,Stability AI表示SVD目前仅限于研究,不适用于实际或商业应用。SVD目前也不是所有人都可以使用,但已开放用户候补名单注册。

视频生成大爆发

最近视频生成领域呈现出一种“混战”的局面。

前有PikaLabs开发的文生视频AI:

8a1c583c47323c9babaac75139a28d2f.gif

后又有号称“史上最强大的视频生成AIMoonvalley推出:

12a6690f52a3d4a733e19d54e0be1caa.gif

最近Gen-2的“运动笔刷”功能也正式上线,指哪画哪:

6f9b83102ddf4836709183f577dd1467.gif

这不现在SVD又出现了,又有要卷3D视频生成的可能。

但文本到3D生成方面好像还没有太多进展,网友对这一现象也很是困惑。

d42f3386c623ba60200048563353b49a.png

有人认为数据是阻碍发展的瓶颈:

f71484ead0cf55fac35d437563595e00.png

还有网友表示原因在于强化学习还不够强:

93b32a6ec6c700ca0b65a881482ff267.png

家人们对这方面的最新进展有了解吗?欢迎评论区分享~

论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

参考链接:
[1]https://stability.ai/news/stable-video-diffusion-open-ai-video-model
[2]https://news.ycombinator.com/item?id=38368287

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

e9acf31f76a675cdb50be485520d1b4d.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值