【2025年5月】数字化中,热门的图片生成模型选型盘点

【2025年5月】数字化中,热门的图片生成模型选型盘点

排名不分先后,为编辑顺序,可根据特点去选型。

模型

1.stabilityai

现在可以从Hugging Face下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型,并在 GitHub 上下载推理代码。模型的尺寸可高度定制,可在消费级硬件上运行,并且根据宽松的 Stability AI 社区许可,一定条件下可免费用于商业和非商业用途

主页
https://huggingface.co/stabilityai

最新模型型号
Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo

Stable Diffusion 3.5 Large 有 80 亿个参数,质量卓越,响应迅速,是 Stable Diffusion 系列中最强大的型号。该型号非常适合 1 百万像素分辨率的专业用例。large 的 huggingface:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
在这里插入图片描述
特点
Stable Diffusion 3.5 版本在以下方面表现出色,使其成为市场上最可定制、最易于访问的图像模型之一,同时在及时性和图像质量方面保持顶级性能:

可定制性: 轻松微调模型以满足您的特定创作需求,或根据定制的工作流程构建应用程序。

高效性能: 经过优化,可在标准消费硬件上运行,无需繁重工作,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。

多样化输出: 创建代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征,无需大量提示。

风格多样: 能够生成各种风格和美感,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
在这里插入图片描述

版本差别

Stable Diffusion 3.5 Large:81亿参数 ,是该系列中最强的基础大模型,适合对质量要求高的专业用户

Stable Diffusion 3.5 Large Turbo:81亿参数,Large的精简版(相当于加速版),仅需4步采样即可生图,速度更快,适合对生成速度要求较高,可以接受牺牲一点点质量换取快速出图的用户

Stable Diffusion 3.5 Medium:25亿参数,适合电脑配置低,不追求极致画面的用户

许可情况
社区许可证:对于年总收入低于 $1M 的组织或个人,可免费用于研究、非商业和商业用途。更多详细信息可以在 Community License Agreement 中找到。在 https://stability.ai/license 上阅读更多内容。
对于年收入超过 $1M 的个人和组织:请联系我们以获取企业许可证。

Stable Diffusion 3.5 Large 处于市场领先地位,并且在图像质量方面可与更大的型号相媲美。

2.FLUX

24年3月,Stable Diffusion的两个主要作者之一Robin Rombach和十来个小伙伴从Stability AI跑路,于同年8月创业,成立的新公司叫黑森林实验室(Black Forest Labs), FLUX就是他们发布的模型系列。
官方宣称是当前 开源模型中最强的,训练参数大,风格多样,真人图片真假难辨,远超SD3的几款模型。
但还不支持商用。学术研究单位和学校机构可以考虑采用这个开展研究。

在这里插入图片描述

3.controlnet-union-sdxl-1.0

是一个用于图像生成和编辑的先进模型。它基于原始的 ControlNet 架构,支持多种控制条件,并能够生成高分辨率图像。该模型由 xinsir 团队发布,并在 Hugging Face 上提供
huggingface:https://huggingface.co/xinsir/controlnet-union-sdxl-1.0
github:https://github.com/xinsir6/ControlNetPlus/tree/main
controlnet-union 将包括 Openpose、Depth、 Canny 在内的十余种常用的图像控制功能融合成了单一模型,不需要来回切换。效果可观,可以去他官网研究下该模型。

在这里插入图片描述
license
apache 2.0

4.Freepik/F-Lite

F Lite 是由 Freepik 和 Fal 创建的 10B 参数扩散模型,专门针对版权安全和 SFW 内容进行训练。该模型在 Freepik 的内部数据集上进行了训练,该数据集包含大约 8000 万张版权安全的图像,使其成为第一个专门针对合法合规和 SFW 内容进行训练的此类规模的公开可用模型。
领域:版权安全和 SFW 内容
在这里插入图片描述

技术报告:https://github.com/fal-ai/f-lite/blob/main/assets/F%20Lite%20Technical%20Report.pdf
license
F Lite 权重根据宽松的 CreativeML Open RAIL-M 许可证获得许可。T5 XXL 和 Flux Schnell VAE 采用 Apache 2.0 许可。

5.Hyper-SD

字节跳动旗下,加速扩散模型,最快1步生成SOTA级图片,字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。Hyper-SD 的开源也得到了Huggingface首席执行官 Clem Delangue的肯定。
经过大量实验和用户评测的验证,Hyper-SD 在 SDXL 和 SD1.5 两种架构上都能在 1 到 8 步生成中实现 SOTA 级别的图像生成性能。
在这里插入图片描述

项目主页:https://hyper-sd.github.io/

论文链接:https://arxiv.org/abs/2404.13686

Huggingface 链接:https://huggingface.co/ByteDance/Hyper-SD

单步生成 Demo 链接:https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I

实时画板 Demo 链接:https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

6.SDXL-Lightning

是字节跳动推出的一款超快速文本到图像生成模型。该模型能够在极短的时间内生成高质量的1024px图像,显著提升了图像生成的速度和质量。
SDXL-Lightning模型采用渐进式对抗蒸馏技术,实现了前所未有的图像生成速度。该模型可以在极短的时间内(2步或4步)生成高质量和高分辨率的图像,极大降低了计算成本和时间,满足快速、实时生成需求的应用场景。相比传统的扩散过程需要20到40次迭代调用神经网络,SDXL-Lightning的效率提升了十倍以上。
详细介绍可看这篇:https://blog.csdn.net/nulifancuoAI/article/details/136291853
huggingface:https://huggingface.co/ByteDance/SDXL-Lightning

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.小海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值