文本生成图像|DALLE2论文记录

本文介绍了一种使用CLIP嵌入的两阶段模型,用于文本条件下的图像生成。首先,通过先验模型从文本生成CLIP图像特征,然后使用扩散解码器根据这些特征创建图像。研究了扩散模型的增强方法,如分类器自由指导,并展示了对CLIP潜在空间的探索,用于图像操作如变体、插值和文本差异。该方法提高了文本到图像生成的多样性和保真度。
摘要由CSDN通过智能技术生成

Hierarchical Text-Conditional Image Generation with CLIP Latents

Abstract

  • Clip模型:是Contrastive model的一种,可以很鲁棒地捕获语义和风格

  • 本文提出一个2-stage model:一个prior模型,给出文字,生成一个CLIP图像特征;一个decoder根据图像特征生成图像

Introduction

  • CLIP

  • diffusion

  • our work:首先训练了一个diffusion decoder来反转CLIP图像encoder,这个反转器是non-deterministic的,对于一个给定的图像特征可以生成多个图片

  • 相比起GAN,CLIP很大的一个优势是能够通过语音信息对图像进行修改

  • 整体示意图整体结构

    • 先用CLIP训练好文本和图像的联合表示空间,给定文本和文本的图像,出文本特征和图像特征,训练好之后它就frozen了不动了

    • 再用clip处理出来的text特征进入prior模型生成img特征,再用diffussion decoder得到最终的图像

Method

  • 对于image x,对应的text为y,CLIP生成的image embedding为 z i z_i zi,生成的text embedding为 z t z_t zt

    • p r i o r    P ( z i ∣ y ) prior\ \ P(z_i|y) prior  P(ziy):能够利用text y生成CLIP image embeddings z i z_i zi

    • d e c o d e r    P ( x ∣ z i , y ) decoder\ \ P(x|z_i,y) decoder  P(xzi,y):能够根据 z i z_i zi(和某些时刻可能用到text y)生成图像x

    • 于是整体流程be like:

    P ( x ∣ y ) = ① P ( x , z i ∣ y ) = ② P ( x ∣ z i , y ) P ( z i ∣ y ) P(x|y)\mathop{=}\limits^① P(x,z_i|y)\mathop{=}\limits^②P(x|z_i,y)P(z_i|y) P(xy)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值