Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【GAN和扩散模型】微信技术交流群

西风 发自 凹非寺
转载自:量子位(QbitAI)

Stable Diffusion也能生成视频了!

你没听错,Stability AI推出了一款新的文本生成动画工具包Stable Animation SDK,可支持文本、文本+初始图像、文本+视频多种输入方式。

1feec57278b223805f9b674e7cedf5dd.gif

使用者可以调用包括Stable Diffusion 2.0、Stable Diffusion XL在内的所有Stable Diffusion模型,来生成动画。

Stable Animation SDK的强大功能一经展现,网友惊呼:

哇哦,等不及想试试了!

e6d76dc1d73fdabbd61f9c185812abd2.png

目前,Stability AI疑似还在对这个新工具进行技术优化,不久后将公开驱动动画API的组件源代码。

3D漫画摄影风,不限时长自动生成

Stable Animation SDK可支持三种创建动画的方式:

1、文本转动画:用户输入文prompt并调整各种参数以生成动画(与Stable Diffusion相似)。

2、文本输入+初始图像输入:用户提供一个初始图像,该图像作为动画的起点。图像与文本prompt结合,生成最终的输出动画。

3、视频输入+文本输入:用户提供一个初始视频作为动画的基础。通过调整各种参数,根据文本prompt生成最终的输出动画。

70172406522e96c76ca6d90d9285fd77.gif

除此之外,Stable Animation SDK对生成视频的时长没有限制,但是长视频将需要更长的时间来生成。

1e660c71604a18098e103886e9e3e8f8.gif

Stability AI发布了Stable Animation SDK后,有很多网友分享了自己测试效果,让我们一起看下吧:

c272f360e543cc3b7e5a6f356cdb2dec.gif9bc2ffd95376f30e7158cba34a185581.gif46c3238a1b0cef1e1d354b4b00227a99.gif

Stable Animation SDK可以设置许多参数,例如steps、sampler、scale、seed。

还有下面这么多的预设风格可选择:

3D模型、仿真胶片、动漫、电影、漫画书、数码艺术、增强幻想艺术、等距投影、线稿、低多边形、造型胶土、霓虹朋克、折纸、摄影、像素艺术。

bfa8164009631b2c7d2ec4cd9a6bdb92.gif

目前,动画功能API的使用是以积分计费的,10美元可抵1000积分。

使用Stable Diffusion v1.5模型,在默认设置值(512x512分辨率,30steps)下,生成100帧(大约8秒)视频将消耗37.5积分

默认情况下,每生成1帧,Cadence值设置为1个静止图像,可根据不同的动画模式选择较低或较高的Cadence值。Cadence值的上限是动画中的总帧数,即至少生成一张静止图像。视频转视频的Cadence必须为 1:1。

官方也给出了一个示例,可以看出生成100帧标准动画的标准静止图像(512x512/768x768/1024x1024,30 steps), 随着Cadence值变化,积分的使用情况:

189e537c134a887d41d0bc1dfab70072.png

简单来说,受参数、时长等各种因素的影响,生成视频的费用并不固定。

效果和价格我们都了解了,那如何安装并调用API呢?

1d7922fba0fd76c166ce07b896123bdc.gif

要创建动画并测试SDK的功能,只需要两个步骤即可运行用户界面:

c891ba0d73978bfebac9ecd48fac84db.png

在开发应用程序时,需要先设置一个Python虚拟环境,并在其中安装Animation SDK:

475193daf9c70ec78128ce1f9adee17e.png

具体使用说明书放在文末啦!

4e29867a95748c54a620e9c5df5bb100.png

越发火热的视频生成

最近,视频生成领域变得越来越热闹了。

比如,AI视频生成新秀Gen-2内测作品流出,网友看完作品直呼:太不可思议了!

c0646b15f0c38a08b980c03b71e237a8.gif

Gen-2的更新更是一口气带来了八大功能:

文生视频、文本+参考图像生视频、静态图片转视频、视频风格迁移、故事板(Storyboard)、Mask(比如把一只正在走路的小白狗变成斑点狗)、渲染和个性化(比如把甩头小哥秒变海龟人)。

还有一位名叫Ammaar Reshi的湾区设计师用ChatGPT和MidJourney两个生成AI模型,成功做出一部蝙蝠侠的动画小电影,效果也是非常不错。

180890ec70fb3b2809b8cedbd788340d.gif

自Stable Diffusion开源后,一些开发者通过Google Colab等形式分享了各种魔改后的功能,自动生成动画功能一步步被开发出来。

像国外视频特效团队Corridor,他们基于Stable Diffusion,对AI进行训练,最终能让AI把真人视频转换为动画版本……

大家在对新工具的出现兴奋不已的同时,也有网友对Stable Animation SDK生成的视频所展现出的效果发出质疑:

这与 deforum有什么区别?没有时间线都不连贯,只有非常松散的一帧接一帧的图像。

8d065a69184fc3cdf35eec07eb4c69e4.png

那么你玩过这些工具了吗?感觉效果如何?

传送门:
https://platform.stability.ai/docs/features/animation/using(Stable Animation SDK使用说明书)

参考链接:
[1]https://www.youtube.com/watch?v=xsoMk1EJoAY
[2]https://twitter.com/_akhaliq/status/1656693639085539331
[3]https://stability.ai/blog/stable-animation-sdk

点击进入—>【GAN和扩散模型】微信技术交流群

最新CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

GAN和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-GAN或者扩散模型 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如GAN或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看62612bffa35bd7a429edef374d40a33e.gif

<think>好的,我现在需要帮助用户了解如何使用Stable Diffusion通过文本生成图像。首先,我需要整理已有的信息,确保遵循用户提供的系统级指令,特别是关于LaTeX格式和引用部分的要求。 首先,用户的问题是关于使用Stable Diffusion进行文本生成图像的教程。根据提供的引用内容,我需要整合这些信息来构建一个结构清晰的回答。引用[1]提到有在线网页可以免费使用Stable Diffusion 3,而引用[2]和[3]涉及使用Amazon SageMaker和加载不同的模型版本,引用[4]则提到Amazon Bedrock和模型授权步骤。 接下来,我需要确保回答符合用户的要求:结构清晰,分步骤说明,同时引用正确的内容。需要涵盖在线体验、本地部署、API调用以及优化技巧这几个方面。同时,生成的相关问题需要与主题相关,并且符合用户提供的示例格式。 需要检查是否所有的数学表达式都正确使用了$...$或$$...$$格式。例如,如果有提到损失函数或其他数学概念,需要正确应用LaTeX。但根据当前主题,可能数学内容较少,但如果有参数设置或公式,需注意格式。 然后,确保每个引用都自然地插入到回答中,并在末尾添加引用标识。例如,在讲解在线体验时引用[1]和[4],在Amazon SageMaker部分引用[2]和[3]。 最后,生成的相关问题需要覆盖用户可能感兴趣的扩展方向,比如原理、优化、应用场景等,类似于示例中的快速排序相关问题。同时,要避免重复,确保问题具有实际意义。 总结步骤: 1. 分步骤讲解使用方法,包括在线工具、本地部署和API调用。 2. 每个步骤中适当插入引用,如在线体验引用[1][4],Amazon SageMaker引用[2][3]。 3. 确保LaTeX格式正确,虽然当前主题可能涉及较少数学内容,但保持警惕。 4. 生成相关问题,覆盖教程扩展内容。 现在开始组织回答内容,确保每个部分清晰,并且引用正确。同时,检查是否符合所有系统指令,特别是引用和格式要求。</think>### 如何使用Stable Diffusion通过文本生成图像教程 #### 一、在线体验(无需代码) 1. **访问在线平台** 部分平台提供免费体验入口,例如: - 进入支持Stable Diffusion 3的网页,输入文本描述即可生成图像[^1]。 - 使用Amazon Bedrock的在线服务,勾选`SDXL 1.0`或`Titan Image Generator`模型并完成授权[^4]。 2. **输入提示词(Prompt)** - 描述需具体,例如:`"星空下的雪山,极光流动,4K画质,写实风格"`。 - 可添加负面提示词(Negative Prompt)排除不想要的元素,如:`"模糊,低分辨率"`。 #### 二、本地部署(需代码基础) 1. **环境配置** - 安装Python和PyTorch,推荐使用GPU加速。 - 安装Hugging Face库: ```bash pip install diffusers transformers ``` 2. **加载模型** 通过Hugging Face库加载指定版本的Stable Diffusion模型: ```python from diffusers import StableDiffusionPipeline import torch device = "cuda" if torch.cuda.is_available() else "cpu" model_id = "stabilityai/stable-diffusion-2-1-base" # 可替换为其他版本,如"stabilityai/stable-diffusion-3" pipe = StableDiffusionPipeline.from_pretrained(model_id).to(device) ``` [^3] 3. **生成图像** ```python prompt = "一只穿着宇航服的柯基犬在月球表面行走" image = pipe(prompt, num_inference_steps=50).images[0] image.save("output.png") ``` #### 三、通过API调用(企业级应用) 1. **使用Amazon SageMaker** - 在AWS控制台创建SageMaker实例,选择GPU实例类型[^2]。 - 部署Stable Diffusion模型为API端点,通过HTTP请求调用。 2. **示例请求** ```python import boto3 client = boto3.client("sagemaker-runtime") response = client.invoke_endpoint( EndpointName="stable-diffusion-endpoint", Body=json.dumps({"prompt": "未来城市,赛博朋克风格"}), ) ``` #### 四、优化技巧 1. **调整参数** - `num_inference_steps`: 推理步数(20-100,步数越多细节越丰富)。 - `guidance_scale`: 控制文本图像的匹配度(默认7.5,过高会导致过拟合)。 2. **使用LoRA/ControlNet** - **LoRA**: 微调模型风格,例如将写实转为动漫。 - **ControlNet**: 通过边缘检测、深度图等控制生成结构。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值