【2025年5月】数字化中，热门的图片生成模型选型盘点-CSDN博客

本文链接：https://blog.csdn.net/m0_52307083/article/details/148036990

【2025年5月】数字化中，热门的图片生成模型选型盘点

排名不分先后，为编辑顺序，可根据特点去选型。

模型

1.stabilityai

现在可以从Hugging Face下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型，并在 GitHub 上下载推理代码。模型的尺寸可高度定制，可在消费级硬件上运行，并且根据宽松的 Stability AI 社区许可，一定条件下可免费用于商业和非商业用途。

主页
https://huggingface.co/stabilityai

最新模型型号
Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo

Stable Diffusion 3.5 Large 有 80 亿个参数，质量卓越，响应迅速，是 Stable Diffusion 系列中最强大的型号。该型号非常适合 1 百万像素分辨率的专业用例。large 的 huggingface：https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
在这里插入图片描述
特点
Stable Diffusion 3.5 版本在以下方面表现出色，使其成为市场上最可定制、最易于访问的图像模型之一，同时在及时性和图像质量方面保持顶级性能：

可定制性：轻松微调模型以满足您的特定创作需求，或根据定制的工作流程构建应用程序。

高效性能：经过优化，可在标准消费硬件上运行，无需繁重工作，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。

多样化输出：创建代表世界的图像，而不仅仅是一种类型的人，具有不同的肤色和特征，无需大量提示。

风格多样：能够生成各种风格和美感，如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
在这里插入图片描述

版本差别

Stable Diffusion 3.5 Large：81亿参数，是该系列中最强的基础大模型，适合对质量要求高的专业用户

Stable Diffusion 3.5 Large Turbo：81亿参数，Large的精简版（相当于加速版），仅需4步采样即可生图，速度更快，适合对生成速度要求较高，可以接受牺牲一点点质量换取快速出图的用户

Stable Diffusion 3.5 Medium：25亿参数，适合电脑配置低，不追求极致画面的用户

许可情况
社区许可证：对于年总收入低于 $1M 的组织或个人，可免费用于研究、非商业和商业用途。更多详细信息可以在 Community License Agreement 中找到。在 https://stability.ai/license 上阅读更多内容。
对于年收入超过 $1M 的个人和组织：请联系我们以获取企业许可证。

Stable Diffusion 3.5 Large 处于市场领先地位，并且在图像质量方面可与更大的型号相媲美。

2.FLUX

24年3月，Stable Diffusion的两个主要作者之一Robin Rombach和十来个小伙伴从Stability AI跑路，于同年8月创业，成立的新公司叫黑森林实验室（Black Forest Labs）, FLUX就是他们发布的模型系列。
官方宣称是当前 开源模型中最强的，训练参数大，风格多样，真人图片真假难辨，远超SD3的几款模型。
但还不支持商用。学术研究单位和学校机构可以考虑采用这个开展研究。

在这里插入图片描述

3.controlnet-union-sdxl-1.0

是一个用于图像生成和编辑的先进模型。它基于原始的 ControlNet 架构，支持多种控制条件，并能够生成高分辨率图像。该模型由 xinsir 团队发布，并在 Hugging Face 上提供
huggingface：https://huggingface.co/xinsir/controlnet-union-sdxl-1.0
github:https://github.com/xinsir6/ControlNetPlus/tree/main
controlnet-union 将包括 Openpose、Depth、 Canny 在内的十余种常用的图像控制功能融合成了单一模型，不需要来回切换。效果可观，可以去他官网研究下该模型。

在这里插入图片描述
license
apache 2.0

4.Freepik/F-Lite

F Lite 是由 Freepik 和 Fal 创建的 10B 参数扩散模型，专门针对版权安全和 SFW 内容进行训练。该模型在 Freepik 的内部数据集上进行了训练，该数据集包含大约 8000 万张版权安全的图像，使其成为第一个专门针对合法合规和 SFW 内容进行训练的此类规模的公开可用模型。
领域：版权安全和 SFW 内容
在这里插入图片描述

技术报告：https://github.com/fal-ai/f-lite/blob/main/assets/F%20Lite%20Technical%20Report.pdf
license
F Lite 权重根据宽松的 CreativeML Open RAIL-M 许可证获得许可。T5 XXL 和 Flux Schnell VAE 采用 Apache 2.0 许可。

5.Hyper-SD

字节跳动旗下，加速扩散模型，最快1步生成SOTA级图片，字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。Hyper-SD 的开源也得到了Huggingface首席执行官 Clem Delangue的肯定。
经过大量实验和用户评测的验证，Hyper-SD 在 SDXL 和 SD1.5 两种架构上都能在 1 到 8 步生成中实现 SOTA 级别的图像生成性能。
在这里插入图片描述

项目主页：https://hyper-sd.github.io/

论文链接：https://arxiv.org/abs/2404.13686

Huggingface 链接：https://huggingface.co/ByteDance/Hyper-SD

单步生成 Demo 链接：https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I

实时画板 Demo 链接：https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

6.SDXL-Lightning

是字节跳动推出的一款超快速文本到图像生成模型。该模型能够在极短的时间内生成高质量的1024px图像，显著提升了图像生成的速度和质量。
SDXL-Lightning模型采用渐进式对抗蒸馏技术，实现了前所未有的图像生成速度。该模型可以在极短的时间内（2步或4步）生成高质量和高分辨率的图像，极大降低了计算成本和时间，满足快速、实时生成需求的应用场景。相比传统的扩散过程需要20到40次迭代调用神经网络，SDXL-Lightning的效率提升了十倍以上。
详细介绍可看这篇：https://blog.csdn.net/nulifancuoAI/article/details/136291853
huggingface：https://huggingface.co/ByteDance/SDXL-Lightning