AI 视频 | Stable Video Diffusion 来了!(附体验地址)

1. 介绍

11 月 21 日,Stability AI 推出了 Stable Video Diffusion,这是 Stability AI 的第一个基于图像模型 Stable Diffusion 的生成式视频基础模型。

目前 Stability AI 已经在 GitHub 上开源了 Stable Video Diffusion 的代码,在 Hugging Face 上也可以找到模型本地运行所需要的 weights。

「GitHub」

https://github.com/Stability-AI/generative-models

「Hugging Face」

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

目前该视频模型可以很容易地适配下游各种任务,并计划基于此基础模型建立一系列模型,类似于围绕 stable diffusion 建立一个生态系统。

在外部评估中,Stable Video Diffusion 发布的两种图片生视频的模型 SVD 和 SVD-XT,在用户偏好研究中,已经超过了 Runway 和 Pika Labs。

2. 局限性

需要注意的是:

1、Stability AI 强调,此模型现阶段还不适用于实际或者商业应用。

2、网页的体验目前还未向所有人开放,可以在这里申请候补(https://stability.ai/contact)。

另外,stable-video-diffusion-img2vid-xt 还有一些局限性,在 Hugging Face 上也说明了,该模型仅用于研究目的。

局限性:

1、生成的视频相当短(<=4秒),并且该模型无法实现完美的照片级别的视频。

2、当前模型可能会生成没有运动的视频,或非常缓慢的相机平移的视频。

3、无法通过文本控制模型。

4、模型无法呈现清晰的文本。

5、面孔和人物可能无法正确生成。

6、模型的自编码部分是有损耗的。

3. 如何体验

Hugging Face 上的体验地址:https://huggingface.co/spaces/multimodalart/stable-video-diffusion

不过上传图片点生成后,提示「This application is too busy」。

后来看到国外一位开发者 mkshing 的分享:https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable_video_diffusion_img2vid.ipynb

打开链接后,点击「代码执行程序」-「全部运行」就可以了,过程有点慢,感兴趣的小伙伴可以跑一下~

关于 Stable Video Diffusion 更多详细的介绍,可以查看论文:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

4. 参考网址

https://stability.ai/news/stable-video-diffusion-open-ai-video-model


觉得文章有帮助,记得点赞收藏关注一下呦~

我是程序员X小鹿,前互联网大厂程序员,自由职业 2 年+,一名 AIGC 爱好者,欢迎一起交流~

资料都在下方公众号,回复【资料】领取 AI 及副业变现资料。

小鹿还有一个免费的知识星球(X小鹿的成长星球),星球置顶帖可领内部AI学习资料。平时也会在这里记录日常动态。包括但不限于 AI、副业、自媒体、自由职业等,欢迎大家围观~

### 稳定视频扩散技术概述 稳定视频扩散(Stable Video Diffusion)是一种基于生成对抗网络(GANs)、变分自编码器(VAEs),以及最近流行的扩散模型来处理视频数据的方法。这些模型通过逐步向输入添加噪声并学习如何逆转这一过程,从而能够生成高质量的图像和视频帧。 #### 扩散模型基础原理 扩散模型的核心在于定义一个前向扩散过程,在该过程中逐渐增加随机噪声直到原始信号被完全破坏;接着训练神经网络执行反向过程——即从纯噪音恢复到清晰的数据样本。对于视频而言,这意味着不仅要考虑单个帧内的空间一致性,还要保持时间维度上的连贯性[^2]。 ```python import torch from torchvision import transforms from stable_diffusion import StableDiffusionModel # 假设这是一个预训练好的库 def apply_stable_video_diffusion(video_tensor): transform = transforms.Compose([ transforms.Resize((512, 512)), transforms.ToTensor() ]) model = StableDiffusionModel(pretrained=True).cuda() processed_frames = [] for frame in video_tensor: input_frame = transform(frame).unsqueeze(0).cuda() # 处理每一帧 with torch.no_grad(): output_frame = model(input_frame)[0].cpu().numpy() processed_frames.append(output_frame) return torch.stack(processed_frames) ``` 此代码片段展示了如何利用预训练的`StableDiffusionModel`类对给定的一系列视频帧应用稳定的视频扩散效果。需要注意的是实际部署时还需要针对具体应用场景调整参数设置与优化策略。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员X小鹿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值