扩散模型 - Stable Diffusion

4 Stable Diffusion

Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)等。

4.1 Stable Diffusion 的组成部分

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.020.jpeg

​ Stable Diffusion 由两部分组成

  • 文本编码器:提取文本 prompt 的信息

  • 图像生成器:根据文本 embedding 生成图像

    • 图像信息创建器:多步扩散过程。步长是其中一个超参数
    • 图像解码器:只在最后生成图像时运行一次
  • **文本编码器:**由一种特殊的 Transformer 编码器组成,例如:OpenAI 的 Clip。

  • 图像信息创建器:自编码器(通常是 U-Net)和噪音机制组成。

  • 图像解码器:由自编码器的解码器组成。

​ Stable Diffusion Pipeline

  • Clip:文本信息编码
    • 输入:文本
    • 输出:77 token 的 embedding 向量,每个包含 768 维
  • U-Net + Noise Scheduler:逐渐把信息扩散至潜空间中
    • 输入:文本 embedding 和由噪音组成的多维 tensor
    • 输出:处
### Stable Diffusion 模型部署教程 #### 准备工作环境 为了成功部署Stable Diffusion,在本地环境中需满足一定的前提条件。这通常涉及配置合适的硬件设施,如具备良好性能的GPU支持CUDA运算,以及安装必要的软件依赖项,比如Python解释器及其相关库文件等[^1]。 #### 获取模型及相关资源 访问Stable Diffusion官方社区平台上的“Models-Embeddings”频道能够获取到多种预训练好的模型权重文件以及其他辅助工具或插件,这些对于加速项目进展十分有帮助[^2]。 #### 安装与设置Web UI 利用由开发者AUTOMATIC1111所创建并维护于GitHub平台上开源发布的StableDiffusion Web UI应用程序来简化操作流程。该程序提供了一个友好的图形化界面,使得即使是没有编程经验的新手也能轻松上手进行图片创作活动;同时它还允许使用者通过简单的点击完成大部分常规任务而无需深入理解底层技术细节[^4]。 ```bash git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git cd stable-diffusion-webui pip install -r requirements.txt ``` #### 运行服务端口监听命令 当一切准备就绪之后,则可通过执行特定脚本来启动服务器实例,并指定其对外开放的服务地址及端口号以便远程连接访问: ```bash python webui.py --listen --port=7860 ``` 以上即为完整的Stable Diffusion部署指南概览,涵盖了从前期准备工作直至最终上线运行所需经历的主要环节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值