Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding论文阅读

最新推荐文章于 2024-07-02 19:30:46 发布

nqct1

最新推荐文章于 2024-07-02 19:30:46 发布

阅读量702

点赞数

分类专栏：论文阅读文章标签：论文阅读深度学习人工智能

本文链接：https://blog.csdn.net/qq_45978862/article/details/128919487

版权

论文阅读专栏收录该内容

8 篇文章 0 订阅

订阅专栏

**行文思路：**Instruction + Imagen介绍自己的模型 + Evaluating Text-to-Image Models + Experiment + related work + 展望
关键字：Text-to-Image Models、Transformer、Diffusion model、Imagen
零、前置
出自Google。
首先提一下文本生成图像重要发展结点：
（1）2021年1月，OpenAI公布了其首个文本生成图像模型DALL·E
（2）2021年12月底，OpenAI再次提出GLIDE模型
（3）2022年4月，OpenAI又又又提出DALL·E 2
（4）2022年5月，Google发表其新模型Imagen，在写实性上击败DALL·E 2【就是本篇文章】

一、instruction

指出基础model：大型Transformer做语言模型理解文本 + Diffusion model生成图片。
官网描述的Imagen研究亮点：
（1）大型预训练的冻结文本编码器对于文本到图像任务非常有效。缩放预训练的文本编码器大小比缩放扩散模型大小更重要。
（2）我们引入了一种新的扩散采样器——dynamic thresholding ，它能够使用非常大的无分类器引导权重。生成更逼真的图像
（3）我们引入了一种新的Efficient U-Net体系结构，它具有更高的计算效率、更高的内存效率和更快的收敛速度。
（4）在COCO上，我们实现了7.27的最先进COCO FID；而人类评级者发现Imagen样本在图像文本对齐方面与参考图像不相上下。人类评分者发现Imagen样本在图像文本对齐方面与COCO数据本身不相上下。
（5）介绍了一种DrawBench。我们介绍了DrawBench，这是一个新的全面且具有挑战性的文本到图像任务评估基准。在DrawBench人体评估中，我们发现Imagen优于所有其他工作，包括DALL-E 2的并行工作。

二、自己的model——Imagen

整体架构：
在这里插入图片描述

1、Pretrained text encoders

model：利用Bert、T5、CLIP架构做尝试。并froze做模型，做到offline
data：一般的任务中的paired image-text-data 【COCO】

2、diffusion model以及 Classifier-Free Diffusion Guidance

关于Classifier-Free Diffusion Guidance：【一个非常重要的技巧】
guidance technique 通过牺牲一定的样本多样性来提高image的保真度 fidelity。
和Imagen模型相似的还有：CLIP【bert+ViT】

3、新的sample方法——dynamic

static thresholding：就规定现在在[-1,1]之间，硬性规定。这个是一个十分重要的技巧！
dynamic thresholding：在每一步t中设置s值为某个百分位绝对像素值，如果s>1，则我们将阈值设置为范围[−s、 s]然后除以s【没有实际操作，不懂】

4、Robust cascaded diffusion model两层级联的diffusion model

其实就是从6464到256256在到1024*1024的两层高像素diffusion model。
其中提到了加噪的问题。——主要是利用Gaussian noise

5、model的基础架构

介绍了Base model和Super-resolution 两种结构
Base model:就是U-net
Super-resolution models:利用改造的U-net，目的：提高内存效率、推理时间【reverse process】和收敛速度。即efficient U-net。另外作者去掉了self-attention，保留了text cross attention。
补充个知识点：
cross-attention：将分别获取的图像和文本全局特征输入到cross-attention模块来进行模态间关联。
对比self-attention，Cross-attention的输入来自不同的序列，Self-attention的输入来自同序列，也就是所谓的输入不同，但是除此之外，基本一致。

三、 Evaluating Text-to-Image Models

衡量的两个点：
（1）text-image alignment：其实就是 text和image要相适配的程度。一般用CLIP score来衡量。
（2）image quality：就是image生成的逼真程度。一般用FIPs衡量。
先说明一个数据集COCO；以及2个指标来：FID、CLIP score，指出两个指标各自不足的地方。
后提出自己的drawBench，是一个评价方法。受到之前PaintSkills的启发所得。