Stable Diffusion 3 Medium 来了_stable-diffusion-3-medium-CSDN博客

本文链接：https://blog.csdn.net/m0_58477260/article/details/139649996

SD的各位老铁们，激动的消息来了Stable Diffusion 3 在北京时间晚9点正式发布了。

让我们一起看看新功能和介绍吧。

先看下演示图：

模版

Stable Diffusion 3 Medium 是一种多模态扩散变换器（MMDiT）文本生成图像模型，具有显著提升的图像质量、排版、复杂提示理解和资源效率。

更多技术细节，请参阅研究论文。

请注意：该模型在稳定非商业研究社区许可证（Stability Non-Commercial Research Community License）下发布。若需创作者许可证或企业许可证，请访问 Stability.ai 或联系我们以获取商业许可详情。

模型描述

开发者: Stability AI
模型类型: MMDiT 文本生成图像生成模型
模型描述: 这是一个可根据文本提示生成图像的模型。它使用了三种固定的预训练文本编码器（OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl）。

许可证

非商业用途: Stable Diffusion 3 Medium 在稳定AI非商业研究社区许可证下发布。该模型可免费用于学术研究等非商业用途。
商业用途: 该模型未经单独的商业许可证不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可证。请访问 https://stability.ai/license 了解更多信息。

模型来源

对于本地或自托管使用，我们推荐使用 ComfyUI 进行推理。

Stable Diffusion 3 Medium 可在我们的稳定性API平台上使用。

Stable Diffusion 3 模型和工作流程可在 Stable Assistant 和 Discord 上的 Stable Artisan 使用。

ComfyUI: https://github.com/comfyanonymous/ComfyUI
StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
技术报告: https://stability.ai/news/stable-diffusion-3-research-paper
演示: Huggingface Space 即将推出…

训练数据集

我们使用合成数据和过滤的公开数据来训练我们的模型。该模型预训练于10亿张图像上。微调数据包括3000万张高质量美学图像，专注于特定的视觉内容和风格，以及300万张偏好数据图像。

文件结构

├── comfy_example_workflows/   │   ├── sd3_medium_example_workflow_basic.json   │   ├── sd3_medium_example_workflow_multi_prompt.json   │   └── sd3_medium_example_workflow_upscaling.json   │   ├── text_encoders/   │   ├── README.md   │   ├── clip_g.safetensors   │   ├── clip_l.safetensors   │   ├── t5xxl_fp16.safetensors   │   └── t5xxl_fp8_e4m3fn.safetensors   │   ├── LICENSE   ├── sd3_medium.safetensors   ├── sd3_medium_incl_clips.safetensors   ├── sd3_medium_incl_clips_t5xxlfp8.safetensors   └── ...

我们为用户方便准备了三种包装版本的 SD3 Medium 模型，每个版本都配备了相同的 MMDiT 和 VAE 权重。

sd3_medium.safetensors 包含 MMDiT 和 VAE 权重，但不包括任何文本编码器。
sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的权重，包括 T5XXL 文本编码器的 fp8 版本，提供了质量和资源需求之间的平衡。
sd3_medium_incl_clips.safetensors 包含所有必要的权重，但不包括 T5XXL 文本编码器。它需要的资源最少，但没有 T5XXL 文本编码器，模型性能会有所不同。

text_encoders 文件夹包含三个文本编码器及其原始模型卡链接，方便用户使用。text_encoders 文件夹中的所有组件（以及其他包装中的等效组件）均受其各自原始许可证的约束。

example_workflows 文件夹包含示例的 Comfy 工作流程。

用途

预期用途

预期用途包括以下内容：

艺术作品的生成和在设计及其他艺术过程中的使用。
在教育或创意工具中的应用。
生成模型的研究，包括理解生成模型的局限性。

所有模型的使用应符合我们的可接受使用政策。

超出范围的用途

该模型未经过训练以真实反映人物或事件。因此，使用该模型生成此类内容超出了该模型的能力范围。

安全性

作为我们设计安全和负责任的 AI 部署方法的一部分，我们在模型开发的各个阶段实施了安全措施，从开始预训练模型到持续开发、微调和部署每个模型。我们实施了一些安全缓解措施，旨在减少严重伤害的风险，但我们建议开发人员根据其具体用例进行自己的测试并应用额外的缓解措施。
关于我们安全方法的更多信息，请访问我们的安全页面。

评估方法

我们的评估方法包括结构化评估以及针对特定严重危害（如儿童性虐待和剥削、极端暴力和血腥、性露骨内容和非自愿裸露）的内部和外部红队测试。测试主要在英语环境下进行，可能未涵盖所有可能的危害。与任何模型一样，该模型有时可能会对用户提示产生不准确、偏见或令人反感的响应。

已识别和缓解的风险

有害内容: 我们在训练模型时使用了过滤的数据集，并实施了旨在在有用性和防止伤害之间取得平衡的安全措施。然而，这并不能保证所有可能的有害内容都被移除。模型有时可能会生成有毒或有偏见的内容。所有开发人员和部署人员应谨慎行事，并根据其具体产品政策和应用场景实施内容安全防护措施。
滥用: 技术限制和开发人员及最终用户的教育可以帮助减轻模型的恶意应用。所有用户在应用微调和提示工程机制时都必须遵守我们的可接受使用政策。请参阅稳定AI可接受使用政策，了解我们产品的违规使用信息。
隐私侵犯: 鼓励开发人员和部署人员使用尊重数据隐私的技术，遵守隐私法规。

最后贴上SD3 官方提供的技术报告

关键要点

今天，我们发布了研究论文，深入探讨了支持 Stable Diffusion 3 的基础技术。
根据人类偏好评估，Stable Diffusion 3 在排版和提示遵从性方面优于最先进的文本生成图像系统，如 DALL·E 3、Midjourney v6 和 Ideogram v1。
我们的新多模态扩散变换器（MMDiT）架构使用了单独的权重集来表示图像和语言，这相比于之前版本的 Stable Diffusion 改进了文本理解和拼写能力。

在我们宣布 Stable Diffusion 3 的早期预览之后，今天我们发布了研究论文，概述了我们即将发布的模型的技术细节。该论文将很快在 arXiv 上发布，我们邀请您注册等待名单以参与早期预览。

性能

以 SD3 作为基准，这张图表概述了基于人类对视觉美感、提示遵从性和排版的评估，SD3 在这些领域中优于竞争模型。

我们将 Stable Diffusion 3 的输出图像与其他各种开源模型（包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α）以及闭源系统（如 DALL·E 3、Midjourney v6 和 Ideogram v1）进行了比较，以基于人类反馈评估性能。在这些测试中，人类评估者被提供了每个模型的示例输出，并被要求根据模型输出与所给提示的上下文的匹配程度（“提示遵从性”）、基于提示的文本呈现质量（“排版”）以及图像的美学质量（“视觉美感”）选择最佳结果。

测试结果表明，Stable Diffusion 3 在所有上述领域中均等于或优于当前最先进的文本生成图像系统。

在消费者硬件上的早期、未优化的推理测试中，我们最大的 8B 参数的 SD3 模型可以适应 RTX 4090 的 24GB VRAM，并在使用 50 个采样步骤时生成分辨率为 1024x1024 的图像需时 34 秒。此外，在初始发布期间将有多个版本的 Stable Diffusion 3，参数范围从 800m 到 8B，以进一步消除硬件障碍。

架构细节

对于文本生成图像，我们的模型必须同时考虑文本和图像这两种模态。这就是我们称这种新架构为 MMDiT 的原因，它能够处理多种模态。与 Stable Diffusion 的早期版本一样，我们使用预训练模型来导出合适的文本和图像表示。具体来说，我们使用了三种不同的文本嵌入器——两个 CLIP 模型和 T5——来编码文本表示，并使用改进的自动编码模型来编码图像标记。

下图展示了我们修改后的多模态扩散变换器（MMDiT）的一块概念化可视化。

SD3 架构基于扩散变换器（“DiT”，Peebles & Xie，2023）。由于文本和图像嵌入在概念上是完全不同的，我们对这两种模态使用了两套独立的权重。如上图所示，这相当于为每种模态分别设置两个独立的变换器，但在注意力操作中将两种模态的序列连接起来，使得两种表示可以在各自的空间中工作，同时考虑到另一种表示。

我们的新型 MMDiT 架构在视觉保真度和文本对齐度的训练过程中，优于已建立的文本生成图像骨干，如 UViT（Hoogeboom 等，2023）和 DiT（Peebles & Xie，2023）。

通过这种方法，信息可以在图像和文本标记之间流动，从而改进生成输出中的整体理解和排版。该架构还可以轻松扩展到视频等多种模态，正如我们在论文中讨论的那样。

由于 Stable Diffusion 3 改进了提示遵从性，我们的模型能够创建关注各种不同主题和质量的图像，同时在图像风格上保持高度灵活。

通过重加权改进校正流

Stable Diffusion 3 采用了校正流（RF）公式（Liu 等，2022；Albergo & Vanden-Eijnden，2022；Lipman 等，2023），在训练过程中数据和噪声沿着线性轨迹连接。这导致了更直的推理路径，从而允许用更少的步骤进行采样。此外，我们在训练过程中引入了一种新的轨迹采样计划。这个计划给轨迹的中间部分更多的权重，因为我们假设这些部分会导致更具挑战性的预测任务。我们使用多个数据集、指标和采样器设置对比了 60 种其他扩散轨迹（如 LDM、EDM 和 ADM），测试了我们的方法。结果表明，虽然以前的 RF 公式在少步采样方案中表现出色，但随着步骤的增加，其相对性能下降。相比之下，我们的重加权 RF 变体在性能上有持续的改进。

扩展校正流变换器模型

我们对使用重加权校正流公式和 MMDiT 骨干进行文本生成图像合成进行了扩展研究。我们训练了从 15 个块、450M 参数到 38 个块、8B 参数的模型，并观察到验证损失随着模型大小和训练步骤的增加而平滑下降（上排）。为了测试这是否转化为模型输出的实际改进，我们还评估了自动图像对齐指标（GenEval）以及人类偏好分数（ELO）（下排）。我们的结果表明，这些指标与验证损失之间存在很强的相关性，表明后者是整体模型性能的强预测指标。此外，扩展趋势没有显示出饱和的迹象，这使我们乐观地认为我们可以在未来继续改进模型性能。

灵活的文本编码器

通过在推理过程中移除内存密集的 4.7B 参数 T5 文本编码器，SD3 的内存需求可以显著减少，而性能损失很小。如上图所示，移除这个文本编码器不会影响视觉美感（不使用 T5 的胜率：50%），仅导致文本遵从性略微下降（胜率 46%）。然而，我们建议在生成书面文本时包含 T5，以充分发挥 SD3 的全部功能，因为我们观察到在没有它的情况下，排版生成的性能下降较大（胜率 38%），如下图所示：

在推理过程中移除 T5 仅在渲染涉及许多细节或大量书面文本的非常复杂的提示时才会导致显著的性能下降。上图显示了每个示例的三个随机样本。

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述