李宏毅机器学习2023|图像生成模型

最新推荐文章于 2024-04-10 17:27:09 发布

小居快跑

最新推荐文章于 2024-04-10 17:27:09 发布

阅读量1.4k

点赞数 26

文章标签：机器学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57290240/article/details/135209490

版权

图像生成

机器需要大量的脑补

Autoregressive（各个击破）Non-Autoregressive（一次到位）

直接把图片的像素拉直，当成文字那样处理。
但是这样太耗时

一次到位法

因为每一个像素独立绘制，因此效果不好

额外的输入——从一个高维的Normal Distribution作simple得到一个向量

在这里插入图片描述

常用的图片生成模型

VAE

怎么样去找一些成对的训练集？使用Encoder产生。（图中省略了输入文字）
在这里插入图片描述

Flow-based Generative Model

因为Encoder必须是Invertible的，因此输出的vector的维度必须和输入的一样。（图上没画好）
在这里插入图片描述

Diffusion Model

在这里插入图片描述

GAN

只learn decoder没有learn encoder。
Decoder要做的就是调整他自己，让判别器表现得越差越好。

Diffusion Model

这里的Denoise都是同一个model
在这里插入图片描述

denoise model里实际内部做的事情

在这里插入图片描述

如何训练Noise Predictor

从哪获取训练资料——怎么找到杂屑的ground truth？这是人类自己创造的
加噪音——Forward Process（Diffusion Process）
在这里插入图片描述

怎么把文字考虑进来

数据集：LAION-5b
在这里插入图片描述

来源论文：Denoising Diffusion Probabilistic Models

Stable Diffusion

现在最好的图像生成模型由三个元件组成：
1、Text Encoder
2、Generation Model（Stable Diffusion或者其他）
3、Decoder
三个元件分开训练再合起来
在这里插入图片描述

常见的图生文模型

在这里插入图片描述

组成部分

text encoder

encoder对结果影响很大，相对而言diffusion model（这里指那个noise predicter的大小）对结果影响就不大。
在这里插入图片描述

Generation Model

杂屑不是加在图片上，而是加在中间产物上
在这里插入图片描述

Decoder

训练时不需要labelled data
在这里插入图片描述

评估指标

FID

越小越好
在这里插入图片描述

CLIP Score

越大越好
在这里插入图片描述

关注

26
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。