Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding论文阅读

**行文思路:**Instruction + Imagen介绍自己的模型 + Evaluating Text-to-Image Models + Experiment + related work + 展望
关键字:Text-to-Image Models、Transformer、Diffusion model、Imagen
零、前置
出自Google。
首先提一下文本生成图像重要发展结点:
(1)2021年1月,OpenAI公布了其首个文本生成图像模型DALL·E
(2)2021年12月底,OpenAI再次提出GLIDE模型
(3)2022年4月,OpenAI又又又提出DALL·E 2
(4)2022年5月,Google发表其新模型Imagen,在写实性上击败DALL·E 2【就是本篇文章】

一、instruction

指出基础model:大型Transformer做语言模型理解文本 + Diffusion model生成图片。
官网描述的Imagen研究亮点
(1)大型预训练的冻结文本编码器对于文本到图像任务非常有效。缩放预训练的文本编码器大小比缩放扩散模型大小更重要。
(2)我们引入了一种新的扩散采样器——dynamic thresholding ,它能够使用非常大的无分类器引导权重。生成更逼真的图像
(3)我们引入了一种新的Efficient U-Net体系结构,它具有更高的计算效率、更高的内存效率和更快的收敛速度。
(4)在COCO上,我们实现了7.27的最先进COCO FID;而人类评级者发现Imagen样本在图像文本对齐方面与参考图像不相上下。人类评分者发现Imagen样本在图像文本对齐方面与COCO数据本身不相上下。
(5)介绍了一种DrawBench。我们介绍了DrawBench,这是一个新的全面且具有挑战性的文本到图像任务评估基准。在DrawBench人体评估中,我们发现Imagen优于所有其他工作,包括DALL-E 2的并行工作。

二、自己的model——Imagen

整体架构
在这里插入图片描述

1、Pretrained text encoders

model:利用Bert、T5、CLIP架构做尝试。并froze做模型,做到offline
data: 一般的任务中的paired image-text-data 【COCO】

2、diffusion model以及 Classifier-Free Diffusion Guidance

关于Classifier-Free Diffusion Guidance:【一个非常重要的技巧】
guidance technique 通过牺牲一定的样本多样性来提高image的保真度 fidelity。
和Imagen模型相似的还有:CLIP【bert+ViT】

3、新的sample方法——dynamic

static thresholding:就规定现在在[-1,1]之间,硬性规定。这个是一个十分重要的技巧!
dynamic thresholding:在每一步t中设置s值为某个百分位绝对像素值,如果s>1,则我们将阈值设置为范围[−s、 s]然后除以s【没有实际操作,不懂】

4、Robust cascaded diffusion model两层级联的diffusion model

其实就是从6464到256256在到1024*1024的两层高像素diffusion model。
其中提到了加噪的问题。——主要是利用Gaussian noise

5、model的基础架构

介绍了Base model和Super-resolution 两种结构
Base model:就是U-net
Super-resolution models:利用改造的U-net,目的:提高内存效率、推理时间【reverse process】和收敛速度。即efficient U-net。另外作者去掉了self-attention,保留了text cross attention。
补充个知识点:
cross-attention:将分别获取的图像和文本全局特征输入到cross-attention模块来进行模态间关联。
对比self-attention,Cross-attention的输入来自不同的序列,Self-attention的输入来自同序列,也就是所谓的输入不同,但是除此之外,基本一致。

三、 Evaluating Text-to-Image Models

衡量的两个点:
(1)text-image alignment:其实就是 text和image要相适配的程度。一般用CLIP score来衡量。
(2)image quality:就是image生成的逼真程度。一般用FIPs衡量。
先说明一个数据集COCO;以及2个指标来 :FID、CLIP score,指出两个指标各自不足的地方。
后提出自己的drawBench,是一个评价方法。受到之前PaintSkills的启发所得。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值