一、Stable Diffusion 概述
1.1 什么是Stable Diffusion?
Stable Diffusion(简称SD)是一种潜在扩散模型(Latent Diffusion Model),能够根据文本描述生成高质量图像,支持图像修复、风格迁移、超分辨率等多种任务。其核心优势在于开源免费,用户可通过微调模型、插件扩展实现高度个性化的创作,远超Midjourney等付费工具的可控性。
1.2 核心原理
扩展阅读:
- 扩散模型(Diffusion Model):通过逐步去噪过程将随机噪声转化为目标图像。SD在 潜在空间(Latent Space) 中进行扩散,显著降低计算量。
- 文本编码器(CLIP):将文本提示转化为向量,引导图像生成方向。
- 模型架构:包含U-Net网络(去噪)、VAE(潜在空间编解码)、以及文本条件模块。
1.3 与Midjourney的对比
- 开源 vs 闭源:SD允许自定义模型、插件,Midjourney依赖官方更新。
- 本地部署 vs 云端服务:SD可离线运行,Midjourney需订阅且受服务器限制。
- 硬件要求:SD依赖高性能显卡(推荐NVIDIA RTX 3060+,显存≥8GB),Midjourney无本地硬件需求。