Stable Diffusion 亲测这几个SDXL大模型,真的非常好用!

大家好我是极客菌,前两周StableDiffusion WebUI1.6.0发布了,新增了很多对SDXL生态的支持。

而ControlNET也对SDXL的支持也逐渐稳定。

SDXL的生态终于有一点起色了,我也觉得是时候,可以来写一篇SDXL的大模型推荐了。

在推荐之前,以免大家混淆,所以这里再做一个简单的小科普:

现在的所有的SD的大模型,都是基于stability.ai发布的开源模型Stable Diffusion进行微调的,而StableDiffusion本身有很多个版本。

对,有这么多,但是基本都没人玩,只有SD1.5屹立不倒,你不管在Civitai还是一些其他的模型站上,99%都是把SD1.5当底座进行微调或者融合的。

而SDXL1.0是今年7月新发布的大模型,参数量比SD1.5大将近7倍,语言模型也“抄”了OpenAI的CLIP可以写大长句,他的上限比SD1.5高太多太多了。

现在,就来盘点一些,很棒的基于SDXL1.0微调出来的模型。

1.DreamShaper XL1.0

熟悉 SD WebUI 的小伙伴应该对 DreamShaper 不陌生,它是一款非常全能的写实风大模型,出图质量很高。此次 SDXL 1.0
更新后,DreamShaper 的制作者也进行了同步模型优化,于是就产生了 DreamShaper XL1.0 模型。它在图像生成质量、清晰度上比基于 SD
1.5 训练的 DreamShaper 模型更优秀。

  1. 类型:大模型(安装路径:根目录 models\Stable-diffusion)

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化;

图像尺寸不低于 768*768px

参考数值:

  • 正向提示词:photo of the warrior Aragorn from Lord of the Rings, film grain, 8k hd

  • 负向提示词:Negative prompt: (deformed iris, deformed pupils), text, worst quality, low quality, uglySteps: 40, Seed: 17748028598464,

  • 大模型:DreamShaperXL1.0Alpha_half

  • 尺寸:768*1024 px

  • 采样器:DPM++ 2S a Karras

  • CFG scale: 8

2.Anime Art Diffusion XL

Anime Art Diffusion XL 是基于 SDXL 1.0 专门训练的动漫风模型,可以生成精致 2D 及 3D 动漫风图像,也适合作为未来其他
Lora 模型的基础模型。

  1. 类型:大模型(安装路径:根目录 models\Stable-diffusion)

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化;

图像尺寸不低于 768*768px;使用 8k 和 high resolution 这样的词汇

细节会更丰富

参考数值:

  • 正向提示词:face focus, masterpiece, best quality, 1girl, , white roses, petals, night background, fireflies, light particle, solo, standing, pixiv, depth of field, cinematic composition, best lighting, looking up

  • 反向提示词:(low quality, worst quality:1.2), 3d, watermark, signature, ugly, poorly drawn

  • 大模型:animeArtDiffusionXL_alpha3

  • 生成步数:35

  • 宽度:768*1024 px

  • 采样器:DPM++ 2S a Karras

  • CFG scale:10

3.Mysterious - SDXL

Mysterious - SDXL 是基于 SDXL 1.0
训练的一款奇幻风格大模型,出图质量高且非常稳定性。东西方奇幻风都可以生成,在赛博朋克、奇幻生物、3D 游戏人物上的效果也不错。

  1. 类型:大模型(安装路径:根目录 models\Stable-diffusion)

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化;

图像尺寸不低于 768*768px

参考数值:

  • 正向提示词:(mysterious:1.3), ultra-realistic mix fantasy,(1 giant eastern dragon:1.3) (behind an asian woman holding a glowing sword:1.1),void energy diamond sword, in the style of dark azure and light azure, mixes realistic and fantastical elements, vibrant manga, uhd image, glassy translucence, vibrant illustrations, ultra realistic, long hair, straight hair, white hair,head jewelly, jewelly, shawls,light In eyes, red eyes, portrait, firefly, mysterious, fantasy, cloud, abstract, colorful background, night sky, flame, very detailed, high resolution, sharp, sharp image, 4k, 8k, masterpiece, best quality, magic effect, (high contrast:1.4), dream art, diamond, skin detail, face detail, eyes detail, mysterious colorful background, dark blue themes

  • 反向提示词:(worst quality:1.5), (low quality:1.5), (normal quality:1.5), lowres, bad anatomy, bad hands, multiple eyebrow, (cropped), extra limb, missing limbs, deformed hands, long neck, long body, (bad hands), signature, username, artist name, conjoined fingers, deformed fingers, ugly eyes, imperfect eyes, skewed eyes, unnatural face, unnatural body, error, painting by bad-artistlayman work, worst quality, ugly, (deformed|distorted|disfigured:1.21), poorly drawn, bad anatomy, wrong anatomy, mutation, mutated, (mutated hands AND fingers:1.21), bad hands, bad fingers, loss of a limb, extra limb, missing limb, floating limbs, amputation, Yaeba, photo, deformed, black and white, realism, disfigured, low contrast

  • 大模型:[Lah]-Mysterious-V2.95

  • 生成步数:50

  • 尺寸:768*1080px

  • 采样器:DPM++ 2M SDE Karras

  • CFG scale: 9

4.Papercut SDXL

一款基于 SDXL 1.0 训练的剪纸风 lora 模型,可以通过简单的提示词生成各种内容的多层剪纸插画,内容清晰准确,适合生成海报素材。

  1. 类型:lora 模型(安装路径:根目录 models\Lora )

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化

  3. 图像尺寸不低于 768*768px

参考数值:

  • 正向提示词:papercut of a fox in a forest, papercut, fox, forest,

  • 负向提示词:blurry, boken

  • 基础模型:sd_xl_base_1.0

  • lora 模型:papercut

  • 生成步数: 25

  • 尺寸:1024*1024px

  • 采样器: DPM++ SDE

  • CFG scale: 7

5.3D Render Style XL

基于 SDXL 1.0 训练的 3D 渲染风格模型,图像质量很高,类似 Pixar 3D 动画的风格,适合用来生成各种 3D 人物、动物及场景。

  1. 类型:lora 模型(安装路径:根目录 models\Lora )

  2. 注意事项:显存小于或低于 8G 时,需要开启显存要优化

图像尺寸不低于 768*768px;不要开启高清修复

参考数值:

  • 正向提示词:(masterpiece, best_quality, ultra-detailed:1.3), a cute Fox, 3d render ,
    负向提示词:Negative prompt: (worst quality, low quality:1.4), (lip, nose, tooth,
    rouge, lipstick, eyeshadow:1.4), (blush:1.2), (jpeg artifacts:1.4), (depth of
    field, bokeh, blurry, film grain, chromatic aberration, lens flare:1.0),
    (1boy, abs, muscular, rib:1.0), greyscale, monochrome, dusty sunbeams,
    trembling, motion lines, motion blur, emphasis lines, text, title, logo,
    signature,bad_hands, bad-artist-anime

  • 基础模型:sd_xl_base_1.0 / Clip skip: 2

  • lora 模型:3d_render_style_xl(权重 0.7-1)

  • 生成步数:30

  • 采样器:Sampler: DPM++

  • 生成尺寸:768x1024 px

  • CFG scale: 7

6.3D Render Style XL

很少会见到针对UI领域特化的SD大模型,Microsoft Design SDXL是国人针对3D UI图标专门训练的模型,偏微软风格,弥散的色彩。

虽然整体风格泛化能力目前较为单一,但是出图质量较高,且填补了这个领域的空白。依然推荐。

7.LEOSAM’s HelloWorld 新世界 SDXL

“HelloWorld”一个全新的逼真的SDXL基础模型系列,拥有极高的肖像的真实感和电影般的质量。用作者的原话说就是:

“由于SDXL的信息量和文本理解能力远远优于SD1.5,HelloWorld是一个旨在逼真描绘所有事物的基本模型,或者换句话说,我希望使用HelloWorld逐步构建一个虚拟摄影世界”

需要在prompt上写上“leogirl”进行模型触发

8.SDXL_Niji_Special Edition

相比Niji5,有过之而无不及,SD生态里表现最好的卡通大模型,精通所有卡通风格,你的每一个创意,都能在SDXL_Niji_Special
Edition的世界里找到最完美的表达。

如果在调用 lora 的过程中发现拓展框内没有下载好的 lora 模型,可以进入“设置-拓展模型”中,勾选最下方的“在 Lora
页面保持显示所有模型”,保存设置后重启 WebUI,就能看到所需的 SDXL lora 模型了。

以上就是本期为大家推荐 5 款基于 SDXL1.0 训练的大模型,可以让我们生成质量更高的图像。虽然目前 SDXL
系的模型在插件兼容性上差一些,但未来配套的设置肯定会越来越完善,非常值得期待。

针对各位AIGC初学者,这里列举了一条完整的学习计划,感兴趣的可以阅读看看,希望对你的学习之路有所帮助,废话不多说,进入正题:

目标应该是这样的:

第一阶段(30天):AI-GPT从入门到深度应用

该阶段首先通过介绍AI-GPT从入门到深度应用目录结构让大家对GPT有一个简单的认识,同时知道为什么要学习GPT使用方法。然后我们会正式学习GPT深度玩法应用场景。

-----------

  • GPT的定义与概述
  • GPT与其他AI对比区别
  • GPT超强记忆力体验
  • 万能GPT如何帮你解决一切问题?
  • GPT表达方式优化
  • GPT多类复杂应用场景解读
  • 3步刨根问底获取终极方案
  • 4步提高技巧-GPT高情商沟通
  • GPT深度玩法应用场景
  • GPT高级角色扮演-教学老师
  • GPT高级角色扮演-育儿专家
  • GPT高级角色扮演-职业顾问
  • GPT高级角色扮演-专业私人健身教练
  • GPT高级角色扮演-心理健康顾问
  • GPT高级角色扮演-程序UX/UI界面开发顾问
  • GPT高级角色扮演-产品经理
  • GPT高级技巧-游戏IP角色扮演
  • GPT高级技巧-文本冒险游戏引导
  • GPT实操练习-销售行业
  • GPT实操练习-菜谱推荐
  • GPT实操练习-美容护肤
  • GPT实操练习-知识问答
  • GPT实操练习-语言学习
  • GPT实操练习-科学减脂
  • GPT实操练习-情感咨询
  • GPT实操练习-私人医生
  • GPT实操练习-语言翻译
  • GPT实操练习-作业辅导
  • GPT实操练习-聊天陪伴
  • GPT实操练习-育儿建议
  • GPT实操练习-资产配置
  • GPT实操练习-教学课程编排
  • GPT实操练习-活动策划
  • GPT实操练习-法律顾问
  • GPT实操练习-旅游指南
  • GPT实操练习-编辑剧本
  • GPT实操练习-面试招聘
  • GPT实操练习-宠物护理和训练
  • GPT实操练习-吸睛爆款标题生成
  • GPT实操练习-自媒体爆款软件拆解
  • GPT实操练习-自媒体文章创作
  • GPT实操练习-高效写作推广方案
  • GPT实操练习-星座分析
  • GPT实操练习-原创音乐创作
  • GPT实操练习-起名/解梦/写诗/写情书/写小说
  • GPT提升工作效率-Word关键字词提取
  • GPT提升工作效率-Word翻译实现
  • GPT提升工作效率-Word自动填写、排版
  • GPT提升工作效率-Word自动纠错、建议
  • GPT提升工作效率-Word批量生产优质文章
  • GPT提升工作效率-Excel自动化实现数据计算、分析
  • GPT提升工作效率-Excel快速生成、拆分及合并实战
  • GPT提升工作效率-Excel生成复杂任务实战
  • GPT提升工作效率-Excel用Chat Excel让效率起飞
  • GPT提升工作效率–PPT文档内容读取实现
  • GPT提升工作效率–PPT快速批量调整PPT文档
  • GPT提升工作效率-文件批量创建、复制、移动等高效操作
  • GPT提升工作效率-文件遍历、搜索等高效操作
  • GPT提升工作效率-邮件自动发送
  • GPT提升工作效率-邮件自动回复
  • GPT接入QQ与QQ群实战
  • GPT接入微信与微信群实战
  • GPT接入QQ与VX多用户访问实战
  • GPT接入工具与脚本部署实战

第二阶段(30天):AI-绘画进阶实战

该阶段我们正式进入AI-绘画进阶实战学习,首先通过了解AI绘画定义与概述 ,AI绘画的应用领域 ,PAI绘画与传统绘画的区别 ,AI绘画的工具分类介绍的基本概念,以及AI绘画工具Midjourney、Stable Diffusion的使用方法,还有AI绘画插件和模板的使用为我们接下来的实战设计学习做铺垫。

  • -----------
    AI绘画定义与概述
  • AI绘画的应用领域
  • AI绘画与传统绘画的区别
  • AI绘画的工具分类介绍
  • AI绘画工具-Midjourney
  • AI绘画工具-百度文心一格
  • AI绘画工具-SDWebUI
  • AI绘画工具-Vega AI
  • AI绘画工具-微信中的AI绘画小程序
  • Midjourney学习-Discord账号的注册
  • Midjourney Bot界面讲解
  • Midjourney提示词入门
  • Midjourney高级提示词
  • Midjourney版本参数学解读
  • Midjourney功能参数
  • Midjourney上采样参数
  • AI绘画组合应用1-Midjourney + GPT
  • AI绘画组合应用2-Stable Diffusion + GPT
  • AI绘画组合应用3-AI绘画+ GPT +小红书
  • AI绘画组合应用4-AI绘画+ GPT +抖音
  • AI绘画组合应用5-AI绘画+ GPT +公众号
  • AI绘画组合应用6-AI绘画+ GPT + AI视频
  • AI绘画组合应用7-AI绘画+ GPT + 小说人物/场景
  • AI绘画设计-Logo设计
  • AI绘画设计-套用万能公式
  • AI绘画设计-引用艺术风格
  • AI绘画设计-GPT加速设计方案落地
  • AI绘画设计-Vega AI渲染线稿生成设计
  • AI绘画设计-摄影
  • AI绘画设计-头像设计
  • AI绘画设计-海报设计
  • AI绘画设计-模特换装
  • AI绘画设计-家具设计
  • AI绘画设计-潘顿椅设计
  • AI绘画设计-沙发设计
  • AI绘画设计-电视柜设计
  • AI绘画设计-包装设计的提示词构思

第三阶段(30天):AI-视频高段位

恭喜你,如果学到这里,你基本可以找到一份AIGC副业相关的工作,比如电商运营、原画设计、美工、安全分析等岗位;如果新媒体运营学的好,还可以从各大自媒体平台收获平台兼职收益。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • -----------
    AI视频定义与概述
  • AI视频制作-方案与创新
  • AI视频制作-各种工具实操
  • AI视频制作-美学风格(油画/插画/日漫/水墨)
  • AI视频制作-形象设定(人物形象服装/造型/表情)
  • AI视频画面特效处理
  • AI视频画面拼接
  • AI视频画面配音
  • AI视频画面包装
  • AI视频锁定人物逐一精修
  • 多种表情动作/情节
  • 动态模型转换-视频内部元素关键帧
  • 动态模型转换-图像整体运动
  • 动态模型转换-虚拟人
  • 动态模型转换-表面特效
  • AI自媒体视频-深问GPT,获取方案
  • AI自媒体视频-风格设置(诗歌/文言文等)
  • AI自媒体视频-各行业创意视频设计思路
  • AI视频风格转换
  • AI视频字数压缩
  • AI视频同类型衍生
  • AI视频Pormpt公式

第四阶段(20天):AI-虚拟数字人课程

  • -----------
    AI数字人工具简介
  • AI工作台界面功能展示及介绍
  • AI数字人任务确定
  • AI数字人素材准备
  • AI知识、语料的投喂
  • AI模型训练
  • AI训练成果展示及改进
  • AI数字人直播系统工具使用
  • AI人物在各平台直播
  • AI数字人在OBS平台直播

第五阶段(45天以上):AIGC-多渠道变现课程

该阶段是项目演练阶段,大家通过使用之前学习过的AIGC基础知识,项目中分别应用到了新媒体、电子商务等岗位能帮助大家在主流的新媒体和电商平台引流和带货变现。

-----------

  • AI-小红书引流变现
  • AI-公众号引流变现
  • AI-知乎引流变现
  • AI-抖音引流/带货变现
  • AI-写作变现
  • AI-B站引流变现
  • AI-快手引流变现
  • AI-百家号引流变现
  • AI-制作素材模板出售变现
  • AI-周边定制变现
  • AI-手机壳图案定制变现
  • AI-周边产品定制变现
  • AI-服装图案定制变现
  • AI-个性头像定制变现
  • AI-起号与知识付费变现
  • AI-实现淘宝销售变现

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名AIGC的正确特征了。

这份完整版的AIGC资料我已经打包好,需要的点击下方二维码,即可前往免费领取!

在这里插入图片描述

<think>嗯,用户现在问的是关于Stable Diffusion模型的结构图,需要我用中文回答。之前他让我帮他生成一个高并发Web商品推荐系统的架构流程图,现在转向了Stable Diffusion的模型结构。我需要先回顾一下之前的对话,看看有没有相关的信息可以复用。 用户之前提到的技术细节包括扩散模型、U-Net骨干网络、动态注意力机制、跨模态注意力等,这些都是Stable Diffusion的重要组成部分。现在用户可能希望更详细地了解Stable Diffusion的内部结构,可能需要一个清晰的流程图或者结构图来解释各个模块之间的关系。 首先,我需要回忆Stable Diffusion的基本架构。它主要基于潜在扩散模型(Latent Diffusion Model),包含编码器、解码器、U-Net、文本编码器等部分。用户可能需要这些组件的详细说明以及它们如何协同工作。 用户可能对模型的工作流程感兴趣,比如从文本输入到图像生成的整个过程,包括潜在空间的转换、时间步的处理、交叉注意力机制的应用等。此外,用户可能还关心关键技术点,如潜在空间压缩、多尺度训练、条件机制等。 在回答时,我需要确保结构清晰,分阶段解释,可能使用流程图的形式,并辅以关键公式,比如交叉注意力的计算。同时,需要结合用户之前提到的动态注意力机制和微调策略,说明这些部分在Stable Diffusion中的具体应用。 另外,用户可能对模型的高效性、应用场景以及性能指标感兴趣,比如生成速度、资源消耗等。需要提供一些实际的数据或案例,比如使用A100 GPU的生成时间,或者在不同数据集上的表现。 需要检查是否有技术细节需要进一步解释,比如潜在空间的概念、VAE的作用、CLIP文本编码器的原理等,确保用户即使没有深入背景知识也能理解。同时,注意使用中文术语,避免直接翻译英文术语可能造成的混淆。 最后,确保回答符合之前系统级指令的要求:行内公式用$...$,独立公式用$$...$$,结构清晰,分步骤解析。可能需要将整个流程分成几个主要阶段,如文本编码、潜在扩散过程、图像解码等,并详细说明每个阶段的组件和功能。</think>以下是对Stable Diffusion模型结构的详细解析及流程图: ``` [Stable Diffusion核心架构图] (文本输入) ↓ CLIP文本编码器 ├─ 文本嵌入向量生成(77x768维度) ↓ 潜在扩散模型(Latent Diffusion Model) ├─ 编码器VAE │ ├─ 将512x512图像压缩到64x64潜在空间 │ └─ 降维因子f=8(512→64) │ ├─ U-Net噪声预器 │ ├─ 多尺度特征提取(4级下采样/上采样) │ ├─ 时间步嵌入(Transformer正弦编码) │ └─ 交叉注意力层(融合文本条件) │ $$ Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V $$ │ 其中Q=图像特征,K=V=文本嵌入 │ ├─ 扩散过程 │ ├─ 前向过程:1000时间步噪声添加 │ │ $$ x_t = \sqrt{\alpha_t}x_0 + \sqrt{1-\alpha_t}\epsilon $$ │ └─ 反向过程:迭代去噪(50-100步) │ └─ 解码器VAE └─ 将64x64潜在变量重建为512x512图像 ``` ### 关键技术特性 1. **潜在空间压缩** - 使用变分自编码器(VAE)将图像压缩到潜在空间 - 计算量减少约$ \frac{1}{f^2} = \frac{1}{64} $(f=8) - 典型潜在空间维度:4x64x64(ChannelxHxW) 2. **条件生成机制** - 文本条件注入方式: $$ h_{cond} = h_{img} + \gamma \cdot Proj(h_{text}) $$ - 其中$\gamma$(classifier-free guidance scale)控制文本遵从度 - 典型值:guidance_scale=7.5 3. **多尺度训练策略** ```python # U-Net典型结构 DownBlock( ResNetBlock, AttentionBlock( CrossAttention( query_dim=320, context_dim=768 # 匹配CLIP文本嵌入维度 ) ), Downsample2D() ) ``` - 特征图尺度变化:64→32→16→8(分辨率) - 通道数变化:320→640→1280→1280 4. **高效推理优化** - 使用DDIM加速采样: $$ x_{t-1} = \sqrt{\alpha_{t-1}} \hat{x}_0 + \sqrt{1-\alpha_{t-1}-\sigma_t^2} \epsilon_\theta + \sigma_t \epsilon_t $$ - 可将1000步压缩到20-50步生成 ### 性能指标(A100 GPU) | 阶段 | 耗时 | 显存占用 | |------------|--------|----------| | 文本编码 | 15ms | 1.2GB | | 扩散过程 | 350ms | 4.8GB | | 图像解码 | 85ms | 0.9GB | | 总延迟 | 450ms | 7GB | ### 典型应用场景 1. **文生图(Text-to-Image)** - 输入:"A cyberpunk cat with neon glasses" - 输出:512x512像素图像(约3秒生成) 2. **图生图(Image-to-Image)** $$ x'_t = \sqrt{\alpha_t}x_{init} + \sqrt{1-\alpha_t}\epsilon $$ 保留原始图像结构,注入新特征 3. **图像修复(Inpainting)** - 使用mask指导生成区域 - 混合已知像素与生成内容 该架构通过**潜在空间操作**降低计算成本,结合**跨模态注意力**实现精准控制,在消费级GPU上即可实现实时生成,是目前最流行的开源生成模型之一。最新版本(SDXL)已支持1024x1024分辨率生成,通过两阶段精炼网络进一步提升细节质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值