Stable Diffusion 3 如何下载安装使用及性能优化

最新推荐文章于 2025-03-17 16:26:49 发布

mayo的自留地

最新推荐文章于 2025-03-17 16:26:49 发布

阅读量3.3k

点赞数 20

文章标签： stable diffusion AIGC 人工智能深度学习神经网络计算机视觉图像处理

本文链接：https://blog.csdn.net/itfans123/article/details/139799378

版权

Stable Diffusion 3

Stable Diffusion 3（SD3），Stability AI最新推出的Stable Diffusion模型系列，现在可以在Hugging Face Hub上使用，并且可以与Diffusers一起使用。

今天发布的模型是Stable Diffusion 3 Medium，包含20亿参数。

下载地址

今天，Stable Diffusion 3 Medium模型正式开源，下载地址：https://huggingface.co/stabilityai/stable-diffusion-3-medium

下载慢的话也可以使用国内网盘下载：
https://pan.quark.cn/s/ce4c98622c96

SD3的新特性？

模型

SD3是一个潜在的扩散模型，由三种不同的文本编码器（CLIP L/14，OpenCLIP bigG/14和T5-v1.1-XXL）、一个新颖的多模态扩散变换器（MMDiT）模型和一个与Stable Diffusion XL中使用的相似的16通道自动编码器模型组成。

SD3将文本输入和像素潜在变量作为一系列嵌入序列处理。位置编码被添加到潜在变量的2x2块上，然后将这些块展平为块编码序列。这个序列连同文本编码序列一起被输入到MMDiT块中，它们被嵌入到一个共同的维度，连接起来，并通过一系列调制注意力和多层感知器（MLPs）传递。

为了解释两种模态之间的差异，MMDiT块使用两组不同的权重将文本和图像序列嵌入到共同的维度。这些序列在注意力操作之前连接，允许两种表示在各自的空间中工作，同时在注意力操作期间考虑另一个。

SD3还利用其CLIP模型的汇总文本嵌入作为其时间步条件的一部分。这些嵌入首先被连接并添加到时间步嵌入中，然后传递到每个MMDiT块。

使用Rectified Flow Matching进行训练

除了架构变化外，SD3应用了一个条件流匹配目标来训练模型。在这种方法中，前向噪声过程被定义为一个连接数据和噪声分布的直线的整流流。

整流流匹配采样过程更简单，并且在减少采样步骤数量时表现良好。为了支持SD3的推理，我们引入了一个新的调度器（FlowMatchEulerDiscreteScheduler），它具有整流流匹配公式和欧拉方法步骤。它还通过一个shift参数实现了时间步调度的分辨率依赖性偏移。增加shift值可以更好地处理更高分辨率的噪声缩放。建议对20亿模型使用shift=3.0。

要快速尝试SD3，请参考下面的应用程序：

使用Diffusers与SD3

要使用Diffusers与SD3，确保升级到最新的Diffusers版本。

pip install --upgrade diffusers

由于模型是受限制的，在使用diffusers之前，您需要先访问Hugging Face页面上的Stable Diffusion 3 Medium页面，填写表单并接受限制。一旦您进入，您需要登录，以便您的系统知道您已经接受了限制。使用以下命令登录：

下面的代码片段将下载SD3的20亿参数版本，精度为fp16。这是Stability AI发布的原始检查点中使用的格式，也是推荐运行推理的方式。

文本到图像

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe