**行文思路:**Instruction + Imagen介绍自己的模型 + Evaluating Text-to-Image Models + Experiment + related work + 展望
关键字:Text-to-Image Models、Transformer、Diffusion model、Imagen
零、前置
出自Google。
首先提一下文本生成图像重要发展结点:
(1)2021年1月,OpenAI公布了其首个文本生成图像模型DALL·E
(2)2021年12月底,OpenAI再次提出GLIDE模型
(3)2022年4月,OpenAI又又又提出DALL·E 2
(4)2022年5月,Google发表其新模型Imagen,在写实性上击败DALL·E 2【就是本篇文章】
一、instruction
指出基础model:大型Transformer做语言模型理解文本 + Diffusion model生成图片。
官网描述的Imagen研究亮点:
(1)大型预训练的冻结文本编码器对于文本到图像任务非常有效。缩放预训练的文本编码器大小比缩放扩散模型大小更重要。
(2)我们引入了一种新的扩散采样器——dynamic thresholding ,它能够使用非常大的无分类器引导权重。生成更逼真的图像
(3)我们引入了一种新的Efficient U-Net体系结构,它具有更高的计算效率、更高的内存效率和更快的收敛速度。
(4)在COCO上,我们实现了7.27的最先进COCO FID;而人类评级者发现Imagen样本在图像文本对齐方面与参考图像不相上下。人类评分者发现Imagen样本在图像文本对齐方面与COCO数据本身不相上下。
(5)介绍了一种DrawBench。我们介绍了DrawBench,这是一个新的全面且具有挑战性的文本到图像任务评估基准。在DrawBench人体评估中,我们发现Imagen优于所有其他工作,包括DALL-E 2的并行工作。
二、自己的model——Imagen
整体架构:
1、Pretrained text encoders
model:利用Bert、T5、CLIP架构做尝试。并froze做模型,做到offline
data: 一般的任务中的paired image-text-data 【COCO】
2、diffusion model以及 Classifier-Free Diffusion Guidance
关于Classifier-Free Diffusion Guidance:【一个非常重要的技巧】
guidance technique 通过牺牲一定的样本多样性来提高image的保真度 fidelity。
和Imagen模型相似的还有:CLIP【bert+ViT】
3、新的sample方法——dynamic
static thresholding:就规定现在在[-1,1]之间,硬性规定。这个是一个十分重要的技巧!
dynamic thresholding:在每一步t中设置s值为某个百分位绝对像素值,如果s>1,则我们将阈值设置为范围[−s、 s]然后除以s【没有实际操作,不懂】
4、Robust cascaded diffusion model两层级联的diffusion model
其实就是从6464到256256在到1024*1024的两层高像素diffusion model。
其中提到了加噪的问题。——主要是利用Gaussian noise
5、model的基础架构
介绍了Base model和Super-resolution 两种结构
Base model:就是U-net
Super-resolution models:利用改造的U-net,目的:提高内存效率、推理时间【reverse process】和收敛速度。即efficient U-net。另外作者去掉了self-attention,保留了text cross attention。
补充个知识点:
cross-attention:将分别获取的图像和文本全局特征输入到cross-attention模块来进行模态间关联。
对比self-attention,Cross-attention的输入来自不同的序列,Self-attention的输入来自同序列,也就是所谓的输入不同,但是除此之外,基本一致。
三、 Evaluating Text-to-Image Models
衡量的两个点:
(1)text-image alignment:其实就是 text和image要相适配的程度。一般用CLIP score来衡量。
(2)image quality:就是image生成的逼真程度。一般用FIPs衡量。
先说明一个数据集COCO;以及2个指标来 :FID、CLIP score,指出两个指标各自不足的地方。
后提出自己的drawBench,是一个评价方法。受到之前PaintSkills的启发所得。