李宏毅机器学习2023|图像生成模型

图像生成

机器需要大量的脑补

Autoregressive(各个击破)Non-Autoregressive(一次到位)

直接把图片的像素拉直,当成文字那样处理。
但是这样太耗时

一次到位法

因为每一个像素独立绘制,因此效果不好

额外的输入——从一个高维的Normal Distribution作simple得到一个向量

在这里插入图片描述

常用的图片生成模型

VAE

怎么样去找一些成对的训练集?使用Encoder产生。(图中省略了输入文字)
在这里插入图片描述

Flow-based Generative Model

因为Encoder必须是Invertible的,因此输出的vector的维度必须和输入的一样。(图上没画好)
在这里插入图片描述

Diffusion Model

在这里插入图片描述

GAN

只learn decoder没有learn encoder。
Decoder要做的就是调整他自己,让判别器表现得越差越好。

Diffusion Model

这里的Denoise都是同一个model
在这里插入图片描述

denoise model里实际内部做的事情

在这里插入图片描述

如何训练Noise Predictor

从哪获取训练资料——怎么找到杂屑的ground truth?这是人类自己创造的
加噪音——Forward Process(Diffusion Process)
在这里插入图片描述

怎么把文字考虑进来

数据集:LAION-5b
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
来源论文:Denoising Diffusion Probabilistic Models

Stable Diffusion

现在最好的图像生成模型由三个元件组成:
1、Text Encoder
2、Generation Model(Stable Diffusion或者其他)
3、Decoder
三个元件分开训练再合起来
在这里插入图片描述

常见的图生文模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

组成部分

text encoder

encoder对结果影响很大,相对而言diffusion model(这里指那个noise predicter的大小)对结果影响就不大。
在这里插入图片描述

Generation Model

杂屑不是加在图片上,而是加在中间产物上
在这里插入图片描述
在这里插入图片描述

Decoder

训练时不需要labelled data
在这里插入图片描述
在这里插入图片描述

评估指标

FID

越小越好
在这里插入图片描述

CLIP Score

越大越好
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值