稳定扩散（Stable Diffusion）安装与配置完全指南

惠炎赞

于 2024-09-13 21:32:22 发布

阅读量572

点赞数 10

本文链接：https://blog.csdn.net/gitblog_09333/article/details/142220979

版权

稳定扩散（Stable Diffusion）安装与配置完全指南

stablediffusion High-Resolution Image Synthesis with Latent Diffusion Models 项目地址: https://gitcode.com/gh_mirrors/st/stablediffusion

稳定扩散（Stable Diffusion）是一个基于latent diffusion模型的高度分辨率图像合成开源项目，旨在从零开始训练并持续更新新的检查点。此项目由Stability AI维护，并在CVPR '22上以论文《高分辨率图像合成与潜在扩散模型》首次亮相，合作机构包括CompVis和RunwayML。它利用了PyTorch作为主要的深度学习框架，并集成了Transformers、Diffusers库等关键组件。

1. 项目基础介绍与编程语言

基础介绍：稳定扩散是一个 latent-based 文本到图像的扩散模型，它可以生成768x768像素的高清图像。这个项目不仅仅涵盖了基本的图像合成，还扩展到了如深度引导的稳定扩散和文本指导的图像修补等多个方面。
编程语言及工具：主要使用Python进行开发，依赖于PyTorch深度学习框架、Transformers库来处理文本嵌入，以及Diffusers用于实现扩散模型的操作。此外，还推荐使用xformers以提高在GPU上的效率。

2. 关键技术和框架

Latent Diffusion Models：核心在于利用潜在空间中的扩散过程来逐步生成图像。
OpenCLIP：用于文本编码，特别是ViT-H模型，提升模型理解文本的能力。
Diffusers Library：提供了处理扩散模型的API，简化了训练和采样的流程。
xformers：高效的注意力机制实现，对大型模型在GPU上的运行至关重要。
CLIP：条件生成中用于理解文本指令的核心组件。

3. 安装与配置步骤

准备工作

环境准备：确保你的系统已经安装了Anaconda或Miniconda。如果没有，请访问Anaconda官网下载并安装。
Git克隆项目：打开终端或命令提示符，使用以下命令克隆项目到本地：
```
git clone https://github.com/Stability-AI/stablediffusion.git
```

创建并激活Conda环境：

conda create -n stable_diffusion python=3.8 -y
conda activate stable_diffusion

安装依赖

基础依赖：

conda install pytorch==1.12.1 torchvision==0.13.1 -c pytorch
pip install transformers==4.19.2 diffusers invisible-watermark

xformers安装（可选但推荐）：注意，安装xformers可能需要较新版本的CUDA和编译器支持。首先确认你的CUDA版本和NVCC是否兼容，然后执行以下命令：

# 更新环境变量
export CUDA_HOME=/usr/local/cuda-<your_cuda_version>
conda install -c nvidia/label/cuda-<your_cuda_version>_0 cuda-nvcc
conda install -c conda-forge gcc

# 克隆xformers并安装
git clone https://github.com/facebookresearch/xformers.git
cd xformers
pip install -r requirements.txt
pip install -e .
cd ..