[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents

最新推荐文章于 2024-08-22 20:12:00 发布

emergency_rose

最新推荐文章于 2024-08-22 20:12:00 发布

阅读量807

点赞数 15

分类专栏： paper阅读笔记文章标签： DALL·E 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_30618203/article/details/139634746

版权

paper阅读笔记专栏收录该内容

60 篇文章 0 订阅

订阅专栏

1、目的

CLIP + DDPM进行text-to-image生成

2、数据

(x, y)，x为图像，y为相应的captions；设定 $z_{i}$ 和 $z_{t}$ 为CLIP的image和text embeddings

3、方法

1）CLIP

学习图像和文本的embedding；在训练prior和decoder时固定该部分参数

2）prior model $P(z_{i}|y)$

从给定的文本caption（或CLIP text embedding）中生成CLIP image embedding

-> Autoregressive (AR) prior

用PCA对CLIP image embeddings降维（1024 - 319），然后排序和数值化

将text caption和CLIP text embedding编码为sequence的prefix

-> Diffusion prior

decoder-only Transformer

casual attention mask with causal attention mask on a sequence (encoded text, CLIP text embedding, embedding for the diffusion timestep, noised CLIP image embedding, final embedding whose output from the Transformer is used to predict the unnoised CLIP image embedding)

同时生成两个 $z_{i}$ ，选择与 $z_{t}$ 的点积更大的那一个

不预测 $\epsilon$ ，而是直接预测 $z_{i}$

3）CLIP image embedding decoder $P(x|z_{i}, y)$

-> 用diffusion models、以CLIP image embeddings作为条件生成图像（可能会用到text caption）。直接将embedding作为采样起点效果不佳。

-> 映射和添加CLIP embeddings到existing timestep embedding

-> 将CLIP embedding映射到4个额外的context token中，和GLIDE text encoder的输出并联

-> 因为是CLIP image encoder的逆过程，因此本文的方法也被称为unCLIP

-> 尝试沿用GLIDE中的text conditioning，但作用不大

-> 训练细节

10%的概率随机设置CLIP embedding（或learned embedding）为0，实现classifier-free guidance；50%的概率随机去除text caption

两个upsample网络，64x64 - 256x256 - 1024x1024；第一个上采样阶段采用gaussian blur，第二个上采样阶段采用BSR degradation；训练时随机裁剪1/4大小的图像，推理时则用正常大小；只用spatial convolution，不用attention层；网络为unconditional ADMNets

-> 备选方案：直接用caption或者text embeddings作为条件，不用prior

4、应用

1）non-deterministic，给定一个image embedding，可以生成多个图像

2）通过插值image embedding，可以对生成图像进行插值

3）通过插值text embedding，可以对生成图像进行插值

4）可以有效抵挡CLIP容易受到影响的typographic attack

5、局限性

1）对于不同物品和属性的关联能力不如GLIDE。因为CLIP embedding本身不关联物品和属性，而decoder也会mix up属性和物品

2）无法写出连贯的文本。因为CLIP本身不编码拼写信息，BPE编码也会模糊单词的拼写

3）无法生成复杂场景中的细节。因为模型在低分辨率下训练，然后再上采样

4）生成效果越好，制造欺骗性或有害图片的能力就更大

关注

15
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents

CLIP + DDPM进行text-to-image生成。
复制链接

扫一扫

专栏目录

emergency_rose CSDN认证博客专家 CSDN认证企业博客

码龄9年

120: 原创

2万+: 周排名

2万+: 总排名

7万+: 访问

: 等级

1554: 积分

196: 粉丝

230: 获赞

18: 评论

302: 收藏

私信

关注

热门文章

分类专栏

linux 12篇
windows 2篇
计算机 2篇
pytorch & tf & conda 8篇
工具 11篇
医学图像 8篇
python 4篇
算法 5篇
学习 1篇
paper阅读笔记 60篇
知识总结 7篇

最新评论

pytorch训练中一些常见问题及解决
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
pytorch GPU训练
CSDN-Ada助手: 如何使用 PyTorch 实现语义分割模型？
[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619081027。
[ERFNet] Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
Attention Is All You Need
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。