李沐学AI--DALL·E 2 + Diffusion Model

DALL·E 2
DALL·E2

CLIP的一半的反过程
clip是 text–> text feature
image --> image fueture
对比找相似的,就能进行分类任务,将给定的图像与给定的text对应起来。

dall e2是
text – > text feature --> image feature -->(扩散模型)–> image
就能进行图像生成了,就是从text到图像。其中image feature是使用CLIP监督的。


DALL·E2原文讨论了五六个它自己的局限性/可能的发展方向,但这不影响它很强

有意思的局限:

无法很好的理解上下左右的位置关系

无法理解 逻辑关系,可能是因为CLIP就是找图片-文本对,找文字描述的具有某些物体所对应的图像,而不能理解上下左右等关系?

图片中的文字没有逻辑
图片中的文字没有逻辑。生成的图中的文字是逻辑混乱的。

扩散模型讲解

GAN网络模型

GAN:

noise Z 生成器 x' 判别器 x 0/1

训练不够稳定
尽可能的真实,但是多样性不高,主要是来自于噪声
不是一个概率模型(?),生成都是隐式的,不知道数据的内在分布

GAN不是概率模型的解释:
无明确的概率解释:GAN的生成器并不直接建模数据的概率分布,而是通过一个随机噪声向量生成数据,这个过程没有明确的概率解释。
无法进行精确的推断:在概率模型中,你可以根据已知的数据推断出未知的参数。但在GAN中,由于没有明确的概率模型,你无法进行这样的推断。
训练过程与概率无关:GAN的训练过程是一个最小化生成器和判别器之间的“对抗”损失函数的过程,而这个过程与概率无关。

AE: Auto-Encoder

x
encoder
bottle neck
decoder
x'

DAE: Denoising Auto-encoder

x
xc corrupted x
encoder
bottle neck
decoder
x'

类似的还有MAE:masked auto-encoder
主要就是去学习bottleneck那个特征,拿特征图/向量去做检测分割等任务
但是这个不是随机噪声,是用来重建的一个特征,没办法做生成任务,为什么?

VAE: Variational Auto-encoder

Decoder
x
Encoder
distribution u, sigma
z = u + det * sigma
z
x'

待仔细研读,怎么将其转化为概率模型的?

VQVAE: Vector Quantised Variational Auto-encoder

x
e
f
z
fa
Decoder
x'

Diffusion Model

x
x1
..
xi
...
x' 纯噪声

再从噪声恢复回去,就是图像生成。

DDPM 思想类似resnet,预测噪声而不是每一步中的图像

扩散模型的分数是
inception score:
IS score:
FID score:

improved DDPM

Diffusion Model Beats GAN

在这里插入图片描述

DALL·E2

  • 39
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Always Believe ...

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值