FuseDream论文阅读笔记 文本生成图像 text2image

FuseDream是结合CLIP和BigGAN的文本到图像生成方法,通过AugCLIP增强得分稳定性,改进优化策略和组合生成技术,提高了生成图像的语义相关性和多样性。实验表明,即使在无训练数据的情况下,FuseDream也能生成高质量的图像,并在对抗性攻击和多样风格生成方面表现出优势。
摘要由CSDN通过智能技术生成

论文地址

论文代码

背景:

使用CLIP和GAN来完成T2I任务,一种常规的做法就是最大化输入文本与生成图像在CLIP空间上的得分,论文中把这个分数叫做s_{CLIP},也就是最大化这两者的余弦相似度(这是CLIP的原理),可以用如下公式表达。

 \xi表示GAN的输入,一般就是高斯分布中随机采样的噪声,但是在这,作者使用的是BigGAN,他在论文中也说了,BigGAN的生成器的输入就是随机噪声和图像类别,还说了这个BigGAN是在ImageNet上训练的,包含了1000个类别。\tau就是文本描述。

如果单纯最大化这个s_{CLIP} 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值