Stable Diffusion 3.5 震撼发布！最新开源 AI 图像生成模型，艺术创作必备神器！

最新推荐文章于 2025-03-26 17:58:21 发布

蚝油菜花

最新推荐文章于 2025-03-26 17:58:21 发布

阅读量1k

点赞数 17

分类专栏：每日 AI 项目与应用实例文章标签： 1024程序员节人工智能开源 stable diffusion 计算机视觉

本文链接：https://blog.csdn.net/qq_19841021/article/details/143205124

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

Stable Diffusion 3.5 是 Stability AI 的最新图像生成模型，包括 Large、Large Turbo 和 Medium 版本。
模型具有高效性能和可定制性，支持多样化输出和多种风格。
适用于艺术创作、游戏开发、广告营销等多种应用场景。

正文（附运行示例）

Stable Diffusion 3.5 是什么

在这里插入图片描述

Stable Diffusion 3.5 是 Stability AI 公司最新推出的一系列先进的 AI 图像生成模型，包括 Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo 和即将发布的 Stable Diffusion 3.5 Medium。这些模型以其高度的可定制性、在消费级硬件上的运行能力及在 Stability AI 社区许可证下的免费商业和非商业用途受到广泛关注。

Stable Diffusion 3.5 的主要功能

模型版本多样化：提供 Large、Large Turbo 和 Medium 三种版本，满足不同需求。
高效性能：优化后能在标准消费级硬件上运行，降低使用门槛。
可定制性：灵活的构建基础，便于微调和定制应用。
多样化输出：能生成代表全世界的图像，提升多样性和包容性。
风格多样：支持 3D、摄影、绘画等多种视觉风格。
优化的算法效率：降低对计算资源的需求，提高运行效率。
更好的稳定性和可扩展性：引入 Query-Key Normalization 技术，提升训练稳定性和可扩展性。
高质量的提示词理解：更准确地理解提示词并生成匹配图像。

Stable Diffusion 3.5 的技术原理

文本到图像的生成：利用深度学习模型，特别是变分自编码器（VAE）和生成对抗网络（GAN），将文本提示转换成图像。
多模态学习：结合文本编码器（如 OpenAI CLIP-L/14、OpenCLIP bigG、Google T5-XXL）理解文本提示。
MM-DiT：核心是一个全新的多模态扩散变换器，用于生成图像。
优化的架构：基于改进的 MMDiT-X 架构和训练方法，优化图像质量和生成速度。
定制和微调：使用 Query-Key Normalization，简化微调过程。

如何运行 Stable Diffusion 3.5

安装

python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
python3 -s -m pip install -r requirements.txt

运行

# 生成一只猫的图像
python3 sd3_infer.py --prompt "cute wallpaper art of a cat"
# 使用文本文件中的提示词列表
python3 sd3_infer.py --prompt path/to/my_prompts.txt
# 使用SD3.5 Large Turbo模型
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# 使用SD3 Medium模型
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors