大模型文生图部署和使用教程,轻松实现AI绘图自由

备受期待的Stable Diffusion 3(以下亦简称SD3)如期向公众开源了(Stable Diffusion 3 Medium),作为Stability AI迄今为止最先进的文本生成图像的开源大模型,SD3在图像质量、文本内容生成、复杂提示理解和资源效率方面有了显著提升,被誉为AI文生图领域的开源英雄

Stable Diffusion 3 Medium特点包括:

  • 模型仅包含20亿参数,具有体积小、适合在个人PC和笔记本电脑上运行的优点,所以我们也可以将其部署到自己的电脑上使用。
  • 图像质量整体提升,能生成照片般细节逼真、色彩鲜艳、光照自然的图像;能灵活适应多种风格,无需微调,仅通过提示词就能生成动漫、厚涂等风格化图像;具有 16 通道的 VAE,可以更好地表现手部以及面部细节。
  • 能够理解复杂的自然语言提示,如空间推理、构图元素、姿势动作、风格描述等。对于「第一瓶是蓝色的,标签是“1.5”,第二瓶是红色的,标签是“SDXL”,第三瓶是绿色的,标签是“SD3”」这样复杂的内容,SD3 依旧能准确生成,而且文本效果比 Midjourney 还要准确。
  • 通过 Diffusion Transformer 架构,SD3 Medium 在英文文本拼写、字距等方面更加正确合理。Stability AI 在发布 SD3 官方公告时,头图就是直接用 SD3 生成的,效果非常惊艳。

特别注意: 开源的Stable Diffusion 3 Medium模型的授权范围是开放的非商业许可证,也就是说没有官方许可的情况下,模型不得用于商业用途

下载Stable Diffusion 3 Medium模型文件

SD3的模型文件已经上传到了HF上,但是在下载之前需要先注册并填写一份表格,保证自己不会将SD3用于商用用途。然而,注册和填写表格均需要有通畅的网络,这对我们个人不是很友好:

注册或登录

注册或者登录成功之后,我们需要填写表格:

填写表格

老牛同学担心,仅这2个前置的需要通畅网络的操作步骤,就阻挡了一批SD3的爱好者们,这是老牛同学不希望看到的结果。

幸运的是: ModelScope提供了一个可直接下载模型文件的镜像仓库,可直接跳过前面步骤(当然这有点违背Stability AI的初衷,但考虑到我们仅用于学习和非商业用途,也算是殊途同归吧)

本仓库有3个基础是模型文件,它们有不同的用途,初次使用建议全部下载到本地:

  • sd3_medium:4.34G,独立主模型,不包含文本编码器(即后面2个文件名带有clip的模型)
  • sd3_medium_incl_clips.safetensors:5.97G,包含 clip_g 和 clip_l 编码器
  • sd3_medium_incl_clips_t5xxlfp8.safetensors:10.87G,包含 clip_g、clip_l 和 t5xxl_fp8 编码器

特别说明: 以上3个模型文件,最后需要放到ComfyUI./models/checkpoints文件夹中(关于ComfyUI的使用下面章节介绍)

另外,本仓库还有2个重要的文件夹,同样建议全部下载到本地:

  • comfy_example_workflows:ComfyUI工作流样例配置文件(关于ComfyUI的使用下面章节介绍)
  • text_encoders:文本编码器模型文件夹,最后模型文件最后也需要放到ComfyUI./models/clip文件夹中(关于ComfyUI的使用下面章节介绍)

因模型文件比较大,直接使用Git无法直接下载到本地,我们通过git-lfs工具包下载:

brew install git-lfs

通过Git复制模型文件到笔记本电脑(文件夹:stable-diffusion-3-medium):

git lfs install
git clone https://www.modelscope.cn/AI-ModelScope/stable-diffusion-3-medium.git stable-diffusion-3-medium

如果因网络不佳等原因,下载可能会中断,我们可以通过以下命令在中断后多次执行继续下载,直到最终下载完成:

git lfs pull

模型文件列表

下载ComfyUI工作流可视化工具

上一章节,我们多次提到了ComfyUI,它是Stable Diffusion的工作流可视化工具之一,也是Stability AI官方推荐使用的可视化工具。

我们下载最新的ComfyUI到笔记本电脑(本地目录:ComfyUI):

git clone https://github.com/comfyanonymous/ComfyUI.git ComfyUI

本次部署教程中,ComfyUI中的models文件夹需要包括下载的模型文件:

% tree ./models 
./models
├── checkpoints
│   └── put_checkpoints_here
├── clip
│   └── put_clip_or_text_encoder_models_here
......其它省略......

checkpoints文件夹:是存放SD3模型文件根目录下的sd3_medium.safetensorssd3_medium_incl_clips.safetensorssd3_medium_incl_clips_t5xxlfp8.safetensors等模型文件的文件夹。

clip文件夹:是存放SD3模型文件text_encoders目录下的clip_g.safetensorsclip_l.safetensorst5xxl_fp8_e4m3fn.safetensorst5xxl_fp16.safetensors等模型文件的文件夹。

启动ComfyUI可视化界面

第一步: 复制模型文件到ComfyUI指定的models文件夹中,因为老牛同学使用的是Mac电脑,可以通过软链接方式实现复制的效果(如果是Windows电脑,请直接复制文件):

% cd ~/JupyterLab/ComfyUI/models/checkpoints
% ln -s ~/JupyterLab/stable-diffusion-3-medium/sd3_medium.safetensors sd3_medium.safetensors
% ln -s ~/JupyterLab/stable-diffusion-3-medium/sd3_medium_incl_clips.safetensors sd3_medium_incl_clips.safetensors
% ln -s ~/JupyterLab/stable-diffusion-3-medium/sd3_medium_incl_clips_t5xxlfp8.safetensors sd3_medium_incl_clips_t5xxlfp8.safetensors
%
% cd ~/JupyterLab/ComfyUI/models/clip
% ln -s ~/JupyterLab/stable-diffusion-3-medium/text_encoders/clip_g.safetensors clip_g.safetensors
% ln -s ~/JupyterLab/stable-diffusion-3-medium/text_encoders/clip_l.safetensors clip_l.safetensors
% ln -s ~/JupyterLab/stable-diffusion-3-medium/text_encoders/t5xxl_fp8_e4m3fn.safetensors t5xxl_fp8_e4m3fn.safetensors
% ln -s ~/JupyterLab/stable-diffusion-3-medium/text_encoders/t5xxl_fp16.safetensors t5xxl_fp16.safetensors

软链接建好之后,我们可以检查一下是否符合预期

% cd ~/JupyterLab/ComfyUI/models
% tree ./checkpoints 
./checkpoints
├── put_checkpoints_here
├── sd3_medium.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/sd3_medium_incl_clips.safetensors
└── sd3_medium_incl_clips_t5xxlfp8.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/sd3_medium_incl_clips_t5xxlfp8.safetensors
%
% tree ./clip
./clip
├── clip_g.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/text_encoders/clip_g.safetensors
├── clip_l.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/text_encoders/clip_l.safetensors
├── put_clip_or_text_encoder_models_here
├── t5xxl_fp16.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/text_encoders/t5xxl_fp16.safetensors
└── t5xxl_fp8_e4m3fn.safetensors -> /Users/shizihu/JupyterLab/stable-diffusion-3-medium/text_encoders/t5xxl_fp8_e4m3fn.safetensors

第二步: 启动ComfyUI工作流可视化界面

进入ComfyUI根目录,安装Python依赖包列表:

% pip install -r requirements.txt

启动ComfyUI可视化工具:

% python main.py


从启动日志可以看出,ComfyUI启动成功了:[http://127.0.0.1:8188]

使用ComfyUI通过文本生成图片

浏览器打开ComfyUI页面:http://127.0.0.1:8188 可以看到默认的SD3工作流,我们用自己的工作流完成绘画。

第一步: 修改模型文件./stable-diffusion-3-medium/comfy_example_workflows/sd3_medium_example_workflow_basic.json的第416行,去掉sdv3/2b_1024/sd3_medium.safetensors的相对目录为sd3_medium.safetensors(默认本模型文件,我们已经复制到了ComfyUI指定的目录中,因此无需相对目录):

......前面省略......
"widgets_values": [
  "sd3_medium.safetensors"
]
......后面省略......


第二步: 加载修改后的工作流配置文件:点击ComfyUILoad按钮,选择修改后的sd3_medium_example_workflow_basic.json文件:

可以看到工作流有很多参数可供设置,包括:选择模型正面Prompt提示词负面Prompt提示词图片尺寸/数量等输入参数:

第三步: 调整参数,生成图片:我们可以修改工作流中任意一个参数(最常修改的是Prompt提示词,包括正面和负面提示词),也可以点击右键增加工作流节点。最终参数调整确定之后,点击Queue Prompt按钮,开始排队生成图片:

我们可以看到,生成图片处理中,ComfyUI根据编排好的工作流,按照依赖关系逐个节点执行,最终在Output中展示了根据提示生成的精美图片:

最终生成的图片:

最终图片

Stable Diffusion使用总结

至此,Stable Diffusion 3的部署和使用教程接近尾声了,我们可以尽情使用不同的工作流和调整不同参数来生成我们的图片了。

同时也恭喜你,和老牛同学一起,我们的大模型库又增添了重要的一员:文生图大模型!

SD3 参数调优: 生成写实或人物面部照片,可以将KSampler节点的cfg参数调低至2到3之间(默认为4.5);当包含文本时,使用4.5到5时效果会更好。大家可以多多尝试,探索一些其他参数产生的效果,欢迎留言。

同时SD3模型更适合自然语言提示词,而不是标签式的提示词(和MJ有一点点区别),我们可以详细描述图片的画面内容、构图、色彩、氛围,即使提示词很长,SD3模型也能处理的很好。


如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

<think>好的,我需要回答用户关于SD绘图的询问,包括使用方法工具推荐。首先,用户提到了几个引用,我需要结合这些引用来构建答案。 根据引用[1],SD有三种安装方法,包括在线使用、本地部署云端部署。需要详细说明每种方法,尤其是哩布哩布在线版,适合新手。引用[2]提到了功能ControlNet插件,这部分需要解释如何利用这些功能优化片。引用[3]提到的sd-webui-forge工具可以简化插件开发,应该作为工具推荐之一。引用[4]关于采样方法,如DDIMPLMS,虽然用户可能不需要深入技术细节,但可以简要提及采样方法的选择对绘图效果的影响。引用[5]提到FLUX的直观使用,但可能不在SD核心功能里,暂时不考虑。 接下来,结构需要清晰,分点回答使用方法工具推荐。使用方法应包括安装、基础操作、功能、ControlNet插件应用。工具推荐需要列出在线平台、本地工具、插件其他工具,如sd-webui-forge。然后生成相关问题,覆盖安装、功能优化、插件应用采样方法。 确保所有数学公式用$...$,独立公式用$$...$$,但回答中可能不需要数学公式,但需检查是否有必要。中文回答,引用标识自然添加在段落末尾。最后,相关问题要相关且有帮助,引导用户深入了解更多内容。</think>### SD绘图使用方法及工具推荐 #### 一、SD绘图基础使用方法 1. **安装与部署** - **在线使用**:对于新手,推荐使用哩布哩布在线平台,无需本地部署即可体验SD的核心功能[^1]。 - **本地部署**:若拥有专业显卡(如NVIDIA RTX系列),可下载Stable Diffusion WebUI本地版本,支持插件扩展自定义模型[^3]。 - **云端部署**:无高性能设备时,可通过云服务(如Google Colab)运行SD,需注意成本与配置。 2. **基础操作流程** - **文生**:输入提示词(Prompt)生成像,例如输入“赛博朋克风格城市”可生成对应画面。 - **参数调整**:设置分辨率(如$512 \times 512$)、采样步数(如20步)、采样方法(如DDIM或Euler)等[^4]。 - **模型加载**:选择适合的模型(如ChilloutMix、DreamShaper),不同模型影响生成风格与质量。 3. **优化** - 上传参考片,通过调整“重绘幅度”(如$0.3$至$0.7$)控制画面变化程度,低值保留原结构,高值增加创意[^2]。 - 结合ControlNet插件,可精准控制生成像的构、姿态或边缘细节[^2]。 --- #### 二、SD绘图工具推荐 1. **核心工具** - **Stable Diffusion WebUI**:开源本地工具,支持插件(如ControlNet、LoRA)自定义模型,适合进阶用户[^3]。 - **sd-webui-forge**:基于WebUI的优化工具,简化插件开发并加速推理,提升生成效率[^3]。 2. **插件扩展** - **ControlNet**:通过线稿、深度或人体姿态控制生成结果,适合复杂构需求[^2]。 - **ADetailer**:自动修复面部或手部细节,解决生成像中常见的肢体错误。 3. **其他工具** - **CivitAI**:模型与插件资源库,提供丰富的风格化模型下载。 - **Leonardo AI**:适合快速生成商业设计的在线平台,操作更简化。 --- #### 三、关键技巧与注意事项 1. **采样方法选择** - **DDIM**:适合快速生成草,但可能细节不足[^4]。 - **DPM++ 2M**:平衡速度与质量,推荐多数场景使用。 - 公式示例(扩散过程): $$ x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right) + \sigma_t z $$ 其中$z$为随机噪声,$\alpha_t$为调度参数。 2. **提示词优化** - 使用加权语法(如`(masterpiece:1.2)`)强调关键元素。 - 添加负面提示(如`low quality, blurry`)过滤低质量结果。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员辣条

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值