Stable Diffusion 亲测这几个SDXL大模型,真的非常好用!

前两周StableDiffusion WebUI1.6.0发布了,新增了很多对SDXL生态的支持。

而ControlNET也对SDXL的支持也逐渐稳定。

SDXL的生态终于有一点起色了,我也觉得是时候,可以来写一篇SDXL的大模型推荐了。

在推荐之前,以免大家混淆,所以这里再做一个简单的小科普:

现在的所有的SD的大模型,都是基于stability.ai发布的开源模型Stable Diffusion进行微调的,而Stable
Diffusion本身有很多个版本。

对,有这么多,但是基本都没人玩,只有SD1.5屹立不倒,你不管在Civitai还是一些其他的模型站上,99%都是把SD1.5当底座进行微调或者融合的。

而SDXL1.0是今年7月新发布的大模型,参数量比SD1.5大将近7倍,语言模型也“抄”了OpenAI的CLIP可以写大长句,他的上限比SD1.5高太多太多了。

现在,就来盘点一些,很棒的基于SDXL1.0微调出来的模型。

1.DreamShaper XL1.0

熟悉 SD WebUI 的小伙伴应该对 DreamShaper 不陌生,它是一款非常全能的写实风大模型,出图质量很高。此次 SDXL 1.0
更新后,DreamShaper 的制作者也进行了同步模型优化,于是就产生了 DreamShaper XL1.0 模型。它在图像生成质量、清晰度上比基于 SD
1.5 训练的 DreamShaper 模型更优秀。

  1. 类型:大模型(安装路径:根目录 models\Stable-diffusion)

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化;

图像尺寸不低于 768*768px

参考数值:

  • 正向提示词:photo of the warrior Aragorn from Lord of the Rings, film grain, 8k hd

  • 负向提示词:Negative prompt: (deformed iris, deformed pupils), text, worst quality, low quality, uglySteps: 40, Seed: 17748028598464,

  • 大模型:DreamShaperXL1.0Alpha_half

  • 尺寸:768*1024 px

  • 采样器:DPM++ 2S a Karras

  • CFG scale: 8

2.Anime Art Diffusion XL

Anime Art Diffusion XL 是基于 SDXL 1.0 专门训练的动漫风模型,可以生成精致 2D 及 3D 动漫风图像,也适合作为未来其他
Lora 模型的基础模型。

  1. 类型:大模型(安装路径:根目录 models\Stable-diffusion)

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化;

图像尺寸不低于 768*768px;使用 8k 和 high resolution 这样的词汇

细节会更丰富

参考数值:

  • 正向提示词:face focus, masterpiece, best quality, 1girl, , white roses, petals, night background, fireflies, light particle, solo, standing, pixiv, depth of field, cinematic composition, best lighting, looking up

  • 反向提示词:(low quality, worst quality:1.2), 3d, watermark, signature, ugly, poorly drawn

  • 大模型:animeArtDiffusionXL_alpha3

  • 生成步数:35

  • 宽度:768*1024 px

  • 采样器:DPM++ 2S a Karras

  • CFG scale:10

3.Mysterious - SDXL

Mysterious - SDXL 是基于 SDXL 1.0
训练的一款奇幻风格大模型,出图质量高且非常稳定性。东西方奇幻风都可以生成,在赛博朋克、奇幻生物、3D 游戏人物上的效果也不错。

  1. 类型:大模型(安装路径:根目录 models\Stable-diffusion)

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化;

图像尺寸不低于 768*768px

参考数值:

  • 正向提示词:(mysterious:1.3), ultra-realistic mix fantasy,(1 giant eastern dragon:1.3) (behind an asian woman holding a glowing sword:1.1),void energy diamond sword, in the style of dark azure and light azure, mixes realistic and fantastical elements, vibrant manga, uhd image, glassy translucence, vibrant illustrations, ultra realistic, long hair, straight hair, white hair,head jewelly, jewelly, shawls,light In eyes, red eyes, portrait, firefly, mysterious, fantasy, cloud, abstract, colorful background, night sky, flame, very detailed, high resolution, sharp, sharp image, 4k, 8k, masterpiece, best quality, magic effect, (high contrast:1.4), dream art, diamond, skin detail, face detail, eyes detail, mysterious colorful background, dark blue themes

  • 反向提示词:(worst quality:1.5), (low quality:1.5), (normal quality:1.5), lowres, bad anatomy, bad hands, multiple eyebrow, (cropped), extra limb, missing limbs, deformed hands, long neck, long body, (bad hands), signature, username, artist name, conjoined fingers, deformed fingers, ugly eyes, imperfect eyes, skewed eyes, unnatural face, unnatural body, error, painting by bad-artistlayman work, worst quality, ugly, (deformed|distorted|disfigured:1.21), poorly drawn, bad anatomy, wrong anatomy, mutation, mutated, (mutated hands AND fingers:1.21), bad hands, bad fingers, loss of a limb, extra limb, missing limb, floating limbs, amputation, Yaeba, photo, deformed, black and white, realism, disfigured, low contrast

  • 大模型:[Lah]-Mysterious-V2.95

  • 生成步数:50

  • 尺寸:768*1080px

  • 采样器:DPM++ 2M SDE Karras

  • CFG scale: 9

4.Papercut SDXL

一款基于 SDXL 1.0 训练的剪纸风 lora 模型,可以通过简单的提示词生成各种内容的多层剪纸插画,内容清晰准确,适合生成海报素材。

  1. 类型:lora 模型(安装路径:根目录 models\Lora )

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化

  3. 图像尺寸不低于 768*768px

参考数值:

  • 正向提示词:papercut of a fox in a forest, papercut, fox, forest,

  • 负向提示词:blurry, boken

  • 基础模型:sd_xl_base_1.0

  • lora 模型:papercut

  • 生成步数: 25

  • 尺寸:1024*1024px

  • 采样器: DPM++ SDE

  • CFG scale: 7

5.3D Render Style XL

基于 SDXL 1.0 训练的 3D 渲染风格模型,图像质量很高,类似 Pixar 3D 动画的风格,适合用来生成各种 3D 人物、动物及场景。

  1. 类型:lora 模型(安装路径:根目录 models\Lora )

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化

图像尺寸不低于 768*768px;不要开启高清修复

参考数值:

  • 正向提示词:(masterpiece, best_quality, ultra-detailed:1.3), a cute Fox, 3d render ,
    负向提示词:Negative prompt: (worst quality, low quality:1.4), (lip, nose, tooth,
    rouge, lipstick, eyeshadow:1.4), (blush:1.2), (jpeg artifacts:1.4), (depth of
    field, bokeh, blurry, film grain, chromatic aberration, lens flare:1.0),
    (1boy, abs, muscular, rib:1.0), greyscale, monochrome, dusty sunbeams,
    trembling, motion lines, motion blur, emphasis lines, text, title, logo,
    signature,bad_hands, bad-artist-anime

  • 基础模型:sd_xl_base_1.0 / Clip skip: 2

  • lora 模型:3d_render_style_xl(权重 0.7-1)

  • 生成步数:30

  • 采样器:Sampler: DPM++

  • 生成尺寸:768x1024 px

  • CFG scale: 7

6.3D Render Style XL

很少会见到针对UI领域特化的SD大模型,Microsoft Design SDXL是国人针对3D UI图标专门训练的模型,偏微软风格,弥散的色彩。

虽然整体风格泛化能力目前较为单一,但是出图质量较高,且填补了这个领域的空白。依然推荐。

7.LEOSAM’s HelloWorld 新世界 SDXL

“HelloWorld”一个全新的逼真的SDXL基础模型系列,拥有极高的肖像的真实感和电影般的质量。用作者的原话说就是:

“由于SDXL的信息量和文本理解能力远远优于SD1.5,HelloWorld是一个旨在逼真描绘所有事物的基本模型,或者换句话说,我希望使用HelloWorld逐步构建一个虚拟摄影世界”

需要在prompt上写上“leogirl”进行模型触发

8.SDXL_Niji_Special Edition

相比Niji5,有过之而无不及,SD生态里表现最好的卡通大模型,精通所有卡通风格,你的每一个创意,都能在SDXL_Niji_Special
Edition的世界里找到最完美的表达。

如果在调用 lora 的过程中发现拓展框内没有下载好的 lora 模型,可以进入“设置-拓展模型”中,勾选最下方的“在 Lora
页面保持显示所有模型”,保存设置后重启 WebUI,就能看到所需的 SDXL lora 模型了。

以上就是本期为大家推荐 5 款基于 SDXL1.0 训练的大模型,可以让我们生成质量更高的图像。虽然目前 SDXL
系的模型在插件兼容性上差一些,但未来配套的设置肯定会越来越完善,非常值得期待。

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

👉stable diffusion新手0基础入门PDF👈

(全套教程文末领取哈)
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉12000+AI关键词大合集👈

在这里插入图片描述

这份完整版的AI绘画全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
<think>嗯,用户现在问的是关于Stable Diffusion模型的结构图,需要我用中文回答。之前他让我帮他生成一个高并发Web商品推荐系统的架构流程图,现在转向了Stable Diffusion的模型结构。我需要先回顾一下之前的对话,看看有没有相关的信息可以复用。 用户之前提到的技术细节包括扩散模型、U-Net骨干网络、动态注意力机制、跨模态注意力等,这些都是Stable Diffusion的重要组成部分。现在用户可能希望更详细地了解Stable Diffusion的内部结构,可能需要一个清晰的流程图或者结构图来解释各个模块之间的关系。 首先,我需要回忆Stable Diffusion的基本架构。它主要基于潜在扩散模型(Latent Diffusion Model),包含编码器、解码器、U-Net、文本编码器等部分。用户可能需要这些组件的详细说明以及它们如何协同工作。 用户可能对模型的工作流程感兴趣,比如从文本输入到图像生成的整个过程,包括潜在空间的转换、时间步的处理、交叉注意力机制的应用等。此外,用户可能还关心关键技术点,如潜在空间压缩、多尺度训练、条件机制等。 在回答时,我需要确保结构清晰,分阶段解释,可能使用流程图的形式,并辅以关键公式,比如交叉注意力的计算。同时,需要结合用户之前提到的动态注意力机制和微调策略,说明这些部分在Stable Diffusion中的具体应用。 另外,用户可能对模型的高效性、应用场景以及性能指标感兴趣,比如生成速度、资源消耗等。需要提供一些实际的数据或案例,比如使用A100 GPU的生成时间,或者在不同数据集上的表现。 需要检查是否有技术细节需要进一步解释,比如潜在空间的概念、VAE的作用、CLIP文本编码器的原理等,确保用户即使没有深入背景知识也能理解。同时,注意使用中文术语,避免直接翻译英文术语可能造成的混淆。 最后,确保回答符合之前系统级指令的要求:行内公式用$...$,独立公式用$$...$$,结构清晰,分步骤解析。可能需要将整个流程分成几个主要阶段,如文本编码、潜在扩散过程、图像解码等,并详细说明每个阶段的组件和功能。</think>以下是对Stable Diffusion模型结构的详细解析及流程图: ``` [Stable Diffusion核心架构图] (文本输入) ↓ CLIP文本编码器 ├─ 文本嵌入向量生成(77x768维度) ↓ 潜在扩散模型(Latent Diffusion Model) ├─ 编码器VAE │ ├─ 将512x512图像压缩到64x64潜在空间 │ └─ 降维因子f=8(512→64) │ ├─ U-Net噪声预器 │ ├─ 多尺度特征提取(4级下采样/上采样) │ ├─ 时间步嵌入(Transformer正弦编码) │ └─ 交叉注意力层(融合文本条件) │ $$ Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V $$ │ 其中Q=图像特征,K=V=文本嵌入 │ ├─ 扩散过程 │ ├─ 前向过程:1000时间步噪声添加 │ │ $$ x_t = \sqrt{\alpha_t}x_0 + \sqrt{1-\alpha_t}\epsilon $$ │ └─ 反向过程:迭代去噪(50-100步) │ └─ 解码器VAE └─ 将64x64潜在变量重建为512x512图像 ``` ### 关键技术特性 1. **潜在空间压缩** - 使用变分自编码器(VAE)将图像压缩到潜在空间 - 计算量减少约$ \frac{1}{f^2} = \frac{1}{64} $(f=8) - 典型潜在空间维度:4x64x64(ChannelxHxW) 2. **条件生成机制** - 文本条件注入方式: $$ h_{cond} = h_{img} + \gamma \cdot Proj(h_{text}) $$ - 其中$\gamma$(classifier-free guidance scale)控制文本遵从度 - 典型值:guidance_scale=7.5 3. **多尺度训练策略** ```python # U-Net典型结构 DownBlock( ResNetBlock, AttentionBlock( CrossAttention( query_dim=320, context_dim=768 # 匹配CLIP文本嵌入维度 ) ), Downsample2D() ) ``` - 特征图尺度变化:64→32→16→8(分辨率) - 通道数变化:320→640→1280→1280 4. **高效推理优化** - 使用DDIM加速采样: $$ x_{t-1} = \sqrt{\alpha_{t-1}} \hat{x}_0 + \sqrt{1-\alpha_{t-1}-\sigma_t^2} \epsilon_\theta + \sigma_t \epsilon_t $$ - 可将1000步压缩到20-50步生成 ### 性能指标(A100 GPU) | 阶段 | 耗时 | 显存占用 | |------------|--------|----------| | 文本编码 | 15ms | 1.2GB | | 扩散过程 | 350ms | 4.8GB | | 图像解码 | 85ms | 0.9GB | | 总延迟 | 450ms | 7GB | ### 典型应用场景 1. **文生图(Text-to-Image)** - 输入:"A cyberpunk cat with neon glasses" - 输出:512x512像素图像(约3秒生成) 2. **图生图(Image-to-Image)** $$ x'_t = \sqrt{\alpha_t}x_{init} + \sqrt{1-\alpha_t}\epsilon $$ 保留原始图像结构,注入新特征 3. **图像修复(Inpainting)** - 使用mask指导生成区域 - 混合已知像素与生成内容 该架构通过**潜在空间操作**降低计算成本,结合**跨模态注意力**实现精准控制,在消费级GPU上即可实现实时生成,是目前最流行的开源生成模型之一。最新版本(SDXL)已支持1024x1024分辨率生成,通过两阶段精炼网络进一步提升细节质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值