Stable Video Diffusion 3D合成功能引关注，网友：进步太快

最新推荐文章于 2024-07-26 13:24:37 发布

机器学习与AI生成创作

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量156

点赞数

文章标签： 3d 人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247501167&idx=2&sn=3bfcf55c5d9ae7b51f7aa20d19a44a5c&chksm=fe2a67d4c95deec26ddbe86f264b88b757170c56566e307fe83cb74c42fb42f488e5f710e01e&scene=126&sessionid=0

版权

西风发自凹非寺量子位 | 公众号 QbitAI

Stable Diffusion官方终于对视频下手了——

发布生成式视频模型Stable Video Diffusion（SVD）。

Stability AI官方博客显示，全新SVD支持文本到视频、图像到视频生成：

‍‍

并且还支持物体从单一视角到多视角的转化，也就是3D合成：

根据外部评估，官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。

虽然目前只发布了基础模型，但官方透露“正计划继续扩展，建立类似于Stable Diffusion的生态系统”。

目前论文代码权重已上线。

最近视频生成领域不断出现新玩法，这次轮到Stable Diffusion下场，以至于网友们的第一反应就是“快”，进步太快！

但仅从Demo效果来说，更多网友们表示并没有感到很惊喜。

虽然我喜欢SD，而且这些Demo也很棒……但也存在一些缺陷，光影不对、而且整体不连贯（视频帧与帧之间闪烁）。

总归来说这是个开始，网友对SVD的3D合成功能还满是看好：

我敢打赌，很快就会有更好的东西出来，到时候只要描述一下，就会得到一个完整的3D场景。

SD视频官方版来袭

除了上面展示的，官方还发布了更多Demo，先来看一波：

太空漫步也安排上：

背景不动，只让两只鸟动也可以：

SVD的研究论文目前也已发布，据介绍SVD基于Stable Diffusion 2.1，用约6亿个样本的视频数据集预训练了基础模型。

可轻松适应各种下游任务，包括通过对多视图数据集进行微调从单个图像进行多视图合成。

微调后，官方公布的是两种图像到视频模型，可以以每秒3到30帧之间的自定义帧速率生成14（SVD）和25帧（SVD-XT）的视频：

之后又微调了多视角视频生成模型，叫做SVD-MV：

根据测试结果，在GSO数据集上，SVD-MV得分优于多视角生成模型Zero123、Zero123XL、SyncDreamer：

值得一提的是，Stability AI表示SVD目前仅限于研究，不适用于实际或商业应用。SVD目前也不是所有人都可以使用，但已开放用户候补名单注册。

视频生成大爆发

最近视频生成领域呈现出一种“混战”的局面。

前有PikaLabs开发的文生视频AI：

后又有号称“史上最强大的视频生成AIMoonvalley推出：

最近Gen-2的“运动笔刷”功能也正式上线，指哪画哪：

这不现在SVD又出现了，又有要卷3D视频生成的可能。

但文本到3D生成方面好像还没有太多进展，网友对这一现象也很是困惑。

有人认为数据是阻碍发展的瓶颈：

还有网友表示原因在于强化学习还不够强：

家人们对这方面的最新进展有了解吗？欢迎评论区分享～

论文链接：https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

参考链接：
[1]https://stability.ai/news/stable-video-diffusion-open-ai-video-model
[2]https://news.ycombinator.com/item?id=38368287

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！

一杯奶茶，成为AIGC+CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

点击一杯奶茶，成为AIGC+CV视觉的前沿弄潮儿！，加入 AI生成创作与计算机视觉 知识星球！

机器学习与AI生成创作

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Stable Video Diffusion 3D合成功能引关注，网友：进步太快

西风发自凹非寺量子位 | 公众号 QbitAIStable Diffusion官方终于对视频下手了——发布生成式视频模型Stable Video Diffusion（SVD）。Stability AI官方博客显示，全新SVD支持文本到视频、图像到视频生成：‍‍并且还支持物体从单一视角到多视角的转化，也就是3D合成：根据外部评估，官方宣称SVD甚至比runway和Pika的视频生成AI更受用...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。