【SD】深入理解Stable Diffusion与ComfyUI的使用

大江东去浪淘尽千古风流人物

于 2024-07-22 00:58:36 发布

阅读量1.4k

点赞数 3

分类专栏： SD 文章标签： stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Darlingqiang/article/details/140597080

版权

SD 专栏收录该内容

2 篇文章

订阅专栏

【SD】深入理解Stable Diffusion与ComfyUI的使用

在这里插入图片描述

1. Stable Diffusion（SD）原理概述

整体结构：SD不是单一模型，而是由三个模型组成，包括文本编码器（Clip）、2. 生成模型（unit）、变分自编码器（VAE）。
输入输出：最基础的输入为文本和随机变量（Latent Vector），输出为图片。

2. 各部件详解

文本编码器（Clip）

专门为SD设计的，采用transformer结构。
训练步骤包括：
限制性预训练：使用图片和文本描述数据集，训练文本编码器和图片编码器，使输出向量尽可能接近。
进一步训练：使用物体名称和描述，训练文本编码器解码出图片含义。

生成模型（unit）

加噪降噪过程：通过VAE的encoder将图片转换成与Latent Vector相同大小的格式，然后逐步加噪并降噪，生成中间结果。

变分自编码器（VAE）

包括编码器和解码器，将图片编码成较小格式，再解码回原大小，训练目标是最小化原始图片与解码结果的差异。
利用VAE可以从噪声中生成图片，即输入随机噪声至解码器，生成图片。

3. SD的工作流程

文本通过文本编码器转换为向量。
向量与随机变量结合，控制生成内容的随机性。
使用unit进行加噪降噪，生成中间结果。
中间结果通过VAE解码器还原成最终图片。

4. ComfyUI与SD的结合

ComfyUI用于低显存生成图片，但具体如何结合SD的原理和ComfyUI的操作未在文本中详述。

5. 总结

SD通过三个模型的协同工作，实现了文本到图片的生成。
Clip作为文本编码器，负责将文本转换为向量。
Unit负责生成过程的加噪和降噪，VAE则用于图片的编码和解码，最终还原成清晰图片。
整个流程涉及文本处理、随机性控制、图片生成和还原，是一个复杂但高效的生成系统。

大江东去浪淘尽千古风流人物

博客等级

码龄9年

博客专家认证

577
原创

3141
点赞

8574
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 【system】Window+Linux双系统如何卸载Linux系统

下一篇：: 【SD】 Stable Diffusion（SD）原理详解与ComfyUI使用 2

最新评论

【c++】std::move 所有权转移的使用
weixin_53708557: “当使用std::move(ref_frames)时，会将ref_frames的所有权转移到ref_frames_”这句话错了吧？std::move的作用不是转移，只是告诉我们需要转移，真正的转移是移动构造里面实现的
【SchurVins】核心核心改进与代码解析
东也大: 作者没有修改单目，只改动了双目。
【SchurVins】核心核心改进与代码解析
xiaoli0111: 您好，请问您用单目数据集测试过这个代码吗？在单目测试的时候好像总是无法正确的深度估计，输出很多：[ WARN] [1742873971.673886398]: Not enough matched features: 0 [ INFO] [1742873971.910828295]: DepthFilter: RESET. [ INFO] [1742873971.954417515]: DepthFilter: RESET. [ INFO] [1742873972.294481281]: Init: Triangulated 265 points [ INFO] [1742873972.511593159]: DepthFilter: RESET. [ INFO] [1742873972.605029637]: DepthFilter: RESET. [ INFO] [1742873973.002446374]: Init: Triangulated 297 points [ WARN] [1742873973.017454301]: Not enough matched features: 0 [ INFO] [1742873973.260925319]: DepthFilter: RESET. [ INFO] [1742873973.309232189]: DepthFilter: RESET. [ INFO] [1742873973.557675724]: Init: Triangulated 199 points [ INFO] [1742873973.736524278]: DepthFilter: RESET. [ INFO] [1742873973.804472061]: DepthFilter: RESET.
【OV】VINS协方差矩阵维护：描述状态的不确定性及各状态变量之间的相关性
xiaoli0111: 还有个问题，请问在代码这里面协方差增广，增广的是新增关键帧的位姿，在论文的公式13里面也是进行了一个协方差增广，那这个是什么增广呢，为什么用的是IMU的状态转移矩阵呢。
【OV】VINS协方差矩阵维护：描述状态的不确定性及各状态变量之间的相关性
xiaoli0111: 请问一下楼主这段代码：“cov.block(old_rows, 0, 6, old_cols) = cov.block(0, 0, 6, old_cols); cov.block(0, old_cols, old_rows, 6) = cov.block(0, 0, old_rows, 6); ”为什么可以直接复制旧的协方差来表示新旧之间的相关性呢

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大江东去浪淘尽千古风流人物 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。