简单介绍一下SD3M (MMDiT) 文本到图像模型

模型

Stable Diffusion 3 Medium是一种多模态扩散变换器 (MMDiT) 文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面的性能有极大提升。

有关更多技术细节,请参阅研究论文

请注意:此模型是在稳定性社区许可证下发布的。如需企业许可证,请访问 Stability.ai 或联系我们获取商业许可详情。

模型描述

  • 开发者: Stability AI
  • 模型类型: MMDiT 文本到图像生成模型
  • 模型描述:这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/GCLIP-ViT/LT5-xxl

执照

  • 社区许可证:对于年收入低于 100 万美元的组织或个人,可免费用于研究、非商业和商业用途。如果您的年收入超过 100 万美元,并且在商业产品或服务中使用 Stability AI 模型,则只需付费企业许可证。阅读更多: https: //stability.ai/license
  • 对于收入超过此门槛的公司,请联系我们: https: //stability.ai/enterprise

模型来源

对于本地或自托管使用,我们建议使用ComfyUI进行推理。

稳定扩散 3 培养基可在我们的稳定性 API 平台上使用。

稳定扩散 3 模型和工作流程可通过稳定助手 (Stable Assistant)和 Discord ( Stable Artisan)获得。

训练数据集

我们使用合成数据和经过筛选的公开数据来训练我们的模型。该模型已在 10 亿张图像上进行了预训练。微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像,以及 300 万张偏好数据图像。

文件结构

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json

├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors

├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors

为方便用户使用,我们准备了 SD3 中型型号的三种包装变体,每种包装变体都配备了相同的 MMDiT 和 VAE 重量组。

  • sd3_medium.safetensors 包括 MMDiT 和 VAE 权重,但不包括任何文本编码器。
  • sd3_medium_incl_clips_t5xxlfp16.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本。
  • sd3_medium_incl_clips_t5xxlfp8.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源要求之间提供平衡。
  • sd3_medium_incl_clips.safetensors包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少,但如果没有 T5XXL 文本编码器,模型的性能会有所不同。
  • text_encoders文件夹包含三个文本编码器及其原始模型卡链接,以方便用户使用。text_encoders 文件夹中的所有组件(以及嵌入在其他包中的等效组件)均受其各自的原始许可证约束。
  • example_workfows文件夹包含舒适的工作流程示例。

与扩散器一起使用

此存储库对应于原始发布权重。您可以在此处找到与扩散器兼容的权重。请确保升级到最新版本的扩散器:。然后您可以运行:pip install -U diffusers

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

有关优化和图像到图像支持的更多详细信息,请参阅文档。

用途

预期用途

预期用途包括:

  • 创作艺术作品并用于设计和其他艺术过程。
  • 在教育或创意工具中的应用。
  • 生成模型的研究,包括了解生成模型的局限性。

模型的所有使用都应符合我们的可接受使用政策

超出范围的用途

该模型并未经过训练以真实地代表人物或事件。因此,使用该模型生成此类内容超出了该模型的能力范围。

安全

作为我们安全设计和负责任的 AI 部署方法的一部分,我们在模型开发的整个过程中实施安全措施,从开始预训练模型到每个模型的持续开发、微调和部署。我们已经实施了许多安全缓解措施,旨在降低严重危害的风险,但我们建议开发人员进行自己的测试并根据其特定用例应用其他缓解措施。
有关我们的安全方法的更多信息,请访问我们的安全页面

评估方法

我们的评估方法包括结构化评估以及针对特定严重危害(例如儿童性虐待和剥削、极端暴力和血腥、露骨色情内容以及非自愿裸露)的内部和外部红队测试。测试主要以英语进行,可能无法涵盖所有​​可能的危害。与任何模型一样,该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。

已识别的风险及缓解措施:

  • 有害内容:我们在训练模型时使用了经过过滤的数据集,并实施了保护措施,试图在实用性和防止危害之间取得适当的平衡。然而,这并不能保证所有可能的有害内容都被删除。该模型有时可能会产生有毒或有偏见的内容。所有开发人员和部署人员都应谨慎行事,并根据其特定的产品政策和应用程序用例实施内容安全护栏。
  • 滥用:技术限制以及对开发者和最终用户的教育有助于缓解模型的恶意应用。所有用户都必须遵守我们的可接受使用政策,包括在应用微调和及时工程机制时。有关我们产品的违规使用的信息,请参阅 Stability AI 可接受使用政策。
  • 侵犯隐私:鼓励开发人员和部署人员采用尊重数据隐私的技术来遵守隐私法规。

### Stable Diffusion 的技术背景 Stable Diffusion 是一种先进的开源深度学习框架,专为从文本描述生成高质量图像而设计[^3]。该模型利用大规模变换器和生成对抗网络的力量来创建与给定文本提示相匹配的图像。 #### 多模态扩散变换器 (MMDiT) 最新版本中的一个重要组件是多模态扩散变换器(MMDiT),这是一种文本到图像模型,在图像质量、排版、复杂提示理解以及资源效率方面表现出显著改进[^1]。这种进步使得模型能够更精确地捕捉复杂的语义信息并将其转换成视觉表示形式。 #### 图像质量和稳定性 作为一种基于扩散过程的图像生成模型,Stable Diffusion 不仅能生产出具备高度真实感的画面,还拥有良好的稳定性和可控性,从而确保了所产出的内容既多样又美观[^2]。 ### 安装与部署指南 对于希望在本地环境中运行此项目的开发者来说,可以通过下载官方提供的Web界面脚本来简化安装流程: ```bash wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh ``` 完成上述命令之后,还需要将项目仓库克隆至指定目录下以便进一步配置: ```bash cd D:\Tools # 这里假设选择了D盘下的Tools文件夹作为工作空间 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git ``` 通过以上步骤即可准备好环境用于探索更多关于Stable Diffusion的功能特性[^4][^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值