DALL-E2原理解读——大模型论文阅读笔记五

论文:https://cdn.openai.com/papers/dall-e-2.pdf
项目:https://openai.com/dall-e-2

一. 主要思想

利用CLIP提取的文本特征,级联式的生成图片。第一阶段通过prior将文本特征与图像特征进行对齐,第二阶段用扩散模型将视觉特征转化为生成图片。整体来看,DALL-E2就是CLIP与扩散模型的结合,因此作者也将其命名为unCLIP。

二. 算法框架

在这里插入图片描述
如上图所示,unCLIP是一个基于CLIP模型的文本到图像生成模型。下面是对unCLIP的高级概述:在虚线上方,我们描述了CLIP模型的训练过程,通过这个过程我们学习了一个用于文本和图像的联合表示空间。
在虚线下方,我们描述了文本到图像生成的过程:首先,将CLIP文本嵌入输入到一个自回归或扩散先验模型中,以生成一个图像嵌入;然后,使用这个嵌入来条件化一个扩散解码器,生成最终的图像。需要注意的是,在先验模型和解码器的训练过程中,CLIP模型是被冻结的,不会进行更新。
以上是对UnCLIP模型的整体概述。UnCLIP的核心思想是利用CLIP模型的文本嵌入来生成对应的图像,从而实现文本到图像的转换。这个过程通过先验模型和解码器的联合训练来实现。

三. 应用

该算法可以用文本描述生成图片,由于扩散模型是Unet结构,理论上可以生成各种尺寸的图片,包括高清大图。如下图所示:
在这里插入图片描述
当然也可以输入图片,生成各种类似而又多样的图片。如下图所示:
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值