Stable Diffusion学习指南【模型篇】

最新推荐文章于 2025-03-27 14:07:55 发布

乐伊Roy

最新推荐文章于 2025-03-27 14:07:55 发布

阅读量1.9k

点赞数 11

本文链接：https://blog.csdn.net/qq_28977589/article/details/132775732

版权

本文深入解析了Stable Diffusion模型的概念、官方模型的价值以及常见模型的类型与特点，如Checkpoint、Embeddings、LoRA、Hypernetwork和VAE。介绍了模型的功能类型，包括固定对象特征、固定图像风格和概念艺术表达。此外，还讨论了如何挑选和评估模型质量，以及Stable Diffusion XL 1.0的最新特性。最后，对模型社区进行了思考，呼吁建立更健康的社区环境和模型评价标准。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型作为机器学习后的结晶，可以说是对绘图画面影响最大的因素之一，一款好的模型即使不写提示词，出的图都会比绞尽脑汁编写咒语出的图更精美。但当我们兴致勃勃的下载了一堆模型后，往往会被一堆看不懂的文件后缀给乱花了眼，为什么模型要划分这么多类型、不同模型间有什么区别、新手如何判断一款模型的好坏？

今天我将带你深入学习Stable Diffusion模型的类型、差异以及使用技巧，同时也能帮助你建立对开源模型的基础认知框架，全篇没有干货都是感情，快来看看吧～

Stable Diffusion学习指南系列文章：

01 Stable Diffusion学习指南【初识篇】

02 Stable Diffusion学习指南【安装篇】

03 Stable Diffusion学习指南【文生图篇】

模型的概念

先来看看模型在Stable Diffusion中到底是什么概念？在维基百科中对模型的定义非常简单：用一个较为简单的东西来代表另一个东西。换句话说，模型代表的是对某一种事物的抽象表达。

在AIGC领域，研发人员为了让机器表现出智能，使用机器学习的方式让计算机从数据中汲取知识，并按照人类所期望的方向执行各种任务。对于AI绘画而言，我们通过对算法程序进行训练，让机器来学习各类图片的信息特征，而在训练后沉淀下来的文件包，我们就将它称之为模型。用一句话来总结，模型就是经过训练学习后得到的程序文件。

和我们此前使用的资料数据库完全不同，模型中储存的不是一张张可视的原始图片，而是将图像特征解析后的代码，因此模型更像是一个储存了图片信息的超级大脑，它会根据我们所提供的提示内容进行预测，自动提取对应的碎片信息进行重组，最后输出成一张图片。当然，模型的实际运行原理要比这复杂的多，但作为使用者我们无需深入学习复杂的技术算法，了解其大概概念即可。

重新认识下官方模型

在之前的文章里，我为大家简单介绍了Stable Diffusion模型的构成和运行原理，而在今天正式介绍模型类型之前，有必要带你重新认识下这款意义重大的官方模型。

不知你是否产生过这样的疑惑：如今市面上有如此多丰富的绘图模型，为什么Stable Diffusion官方模型还会被大家津津乐道？当然除了它本身能力强大外，更重要的是从零训练出这样一款完整架构模型的成本非常高。根据官方统计，Stable Diffusion v1-5 版本模型的训练使用了256个40G的 A100 GPU（专用于深度学习的显卡，对标3090以上算力），合计耗时15万个GPU小时（约17年），总成本达到了60万美元。除此之外，为了验证模型的出图效果，伴随着上万名测试人员每天170万张的出图测试，没有海量的资源投入就不可能得到如今的Stable Diffusion。这样一款模型能被免费开源，不得不说极大地推进了AI绘画技术的发展。

按理说这么大成本训练出来的模型，绘图效果应该非常强大吧？但实际体验过的朋友都知道，对比开源社区里百花齐放的绘图模型，官方模型的出图效果绝对算不上出众，甚至可以说有点拉垮，这是为什么呢？

这里我们用ChatGPT来对比就很好理解了。ChatGPT的底层大模型是GPT模型，包括出道即巅峰的GPT3.5和后来火爆全网的GPT4，这些模型虽然包含了海量的基础知识，但并不能直接拿来使用，还需要经过人工微调和指导才能应用在实际生活中，而ChatGPT就是在聊天领域的应用程序。同理，Stable Diffusion作为专注于图像生成领域的大模型，它的目的并不是直接进行绘图，而是通过学习海量的图像数据来做预训练，提升模型整体的基础知识水平，这样就能以强大的通用性和实用性状态完成后续下游任务的应用。

用更通俗的话来说，官方大模型像是一本包罗万象的百科全书，虽然集合了AI绘图所需的基础信息，但是无法满足对细节和特定内容的绘图需求，所以想由此直接晋升为专业的绘图工具还是有些困难。

Stable Diffusion官方模型的真正价值在于降低了模型训练的门槛，因为在现有大模型基础上训练新模型的成本要低得多。对众多炼丹爱好者来说，只需在官方模型基础上加上少量的文本图像数据，并配合微调模型的训练方法，就能得到应用于特定领域的定制模型。一方面训练成本大大降低，只需在本地用一张民用级显卡训练几小时就能获得稳定出图的定制化模型，另一方面，针对特定方向训练模型的理解和绘图能力更强，实际的出图效果反而有了极大的提升。

常见模型解析

了解了官方模型的价值，下面我们再来正式介绍下平时使用的几种模型。根据模型训练方法和难度的差异，我们可以将这些模型简单划分为2类：一种是主模型，另一种则是用于微调主模型的扩展模型。

主模型指的是包含了TextEncoder（文本编码器）、U-net（神经网络）和VAE（图像编码器）的标准模型Checkpoint，它是在官方模型的基础上通过全面微调得到的。但这样全面微调的训练方式对普通用户来说还是比较困难，不仅耗时耗力，对硬件要求也很高，因此大家开始将目光逐渐转向训练一些扩展模型，比如Embedding、LoRA和Hypernetwork，通过它们配合合适的主模型同样可以实现不错的控图效果。

我们可以将主模型理解为一本面向特定科目的教材，而扩展模型则是针对教材内容进行补充的辅导资料或习题册。

我在下表中整理了常见模型的功能和特点差异，下面挨个为大家介绍。