1 概念原理
- 首先sample 一个都是噪声的vector
- 然后经过denoise network 过滤一些杂质
- 接着继续不断denoise,直到最后出来一张清晰图片
- 【类似于做雕塑,一开始只是一块石头(噪声很杂的雕塑),慢慢雕刻出想要的花纹】
- 同一个denoise network的模型反复使用
- 但每一个stage输入的图片的状况差异很大
- ——>完全是同一个模型效果不一定好
- denoise network还多需要一个输入,野鸡现在denoise的阶段
- 1表示denoise快结束了的阶段
- 1000表示刚开始denoise的阶段
2 denoise内部原理
- 预测图片里面的噪声长什么样
- 输入图片减去输出的噪声,得到这一轮去噪后的图片
- 预测noise的原因:产生图片和产生noise 难度是不一样的
2.1 noise predictor的ground truth
那么如何训练noise predictor,换句话说,怎么找到ground-truth呢
- 从资料库中拿出图片
- 再从高斯分布/或者其他分布中产生噪声
- 将这个噪声加入图片中,就有了带噪声的图片
这样就形成了一对一对的 输入和ground-truth ,供noise predictor 训练
3 用文字生成图片
如果我们是提供给diffusion model 文字,让他生成图片
整体的框架没有多少变化,就是 denoise model 输入多了一个文字的vector