Stable diffusion（一）

最新推荐文章于 2024-11-17 12:59:03 发布

70pice

最新推荐文章于 2024-11-17 12:59:03 发布

阅读量430

点赞数 7

文章标签： stable diffusion

本文链接：https://blog.csdn.net/qq_36309174/article/details/136597095

版权

本文介绍了Stablediffusion中的技术，包括固定正向扩散过程、生成式反向去噪过程，以及VAE用于图片压缩的潜在空间。Unet在此中用于噪声预测和图像去噪，通过加入随机噪声生成多样训练样本。同时提及了CLIP的Tokenizer和TextEncodeSampler在训练中的作用，以及图像分割的不同分类和Unet在实际应用中的具体操作。

摘要由CSDN通过智能技术生成

Stable diffusion 原理解读

名词解释

正向扩散（Fixed Forward Diffusion Process）：
反向扩散（Generative Reverse Denoising Process）
VAE（Variational AutoEncoder）：一个用于压缩图片的神经网络，按照我的理解，通过这个模组的图片/文本，将被映射更加精确的向量。
Latent Space（潜变量空间）：被VAE压缩/升维后的向量。
Unet：一个用来预测噪声的图像分割模型
CLIP：Tokenizer + Text Encode
Sampler：控制迭代次数和迭代总数的规划期。可以有线性规划等规划方式，去分配，在训练中，每一个epoch中加入多少次噪音。
- 迭代次数：epoch
- 迭代总数：要加多少次噪音。

Unet原理分析

图像分割的几种分类。图像分割，就是将像素点达标成thing的过程。
网络结构
网络结构就是卷积下采样 + 反卷积/反池化上采样的过程
训练集样例
Unet 在stable diffusion中的使用。Unet是用于图像分割的，用于预测像素的分类。在stable diffusion中，就使用它预测噪声，去除噪声。
1. 在一张图像中，加入随机生成噪声，并且将这张图片和这个噪声分类放到训练集中去。那么就可以通过一张图片，获得有很多图片的训练集。
2. 训练Unet，将图片中的噪音点打标出来。输入图片，输出噪音。并且将噪音去除，就能从一个噪音图片中还原出一个图像~