FuseDream论文阅读笔记文本生成图像 text2image

最新推荐文章于 2024-09-13 22:17:40 发布

biu piu biu piu

最新推荐文章于 2024-09-13 22:17:40 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：论文阅读深度学习 CLIP BigGAN 文本生成图像

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MISS_XDY/article/details/127769794

FuseDream是结合CLIP和BigGAN的文本到图像生成方法，通过AugCLIP增强得分稳定性，改进优化策略和组合生成技术，提高了生成图像的语义相关性和多样性。实验表明，即使在无训练数据的情况下，FuseDream也能生成高质量的图像，并在对抗性攻击和多样风格生成方面表现出优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：

使用CLIP和GAN来完成T2I任务，一种常规的做法就是最大化输入文本与生成图像在CLIP空间上的得分，论文中把这个分数叫做 $s_{CLIP}$ ，也就是最大化这两者的余弦相似度（这是CLIP的原理），可以用如下公式表达。

$\xi$ 表示GAN的输入，一般就是高斯分布中随机采样的噪声，但是在这，作者使用的是BigGAN，他在论文中也说了，BigGAN的生成器的输入就是随机噪声和图像类别，还说了这个BigGAN是在ImageNet上训练的，包含了1000个类别。 $\tau$ 就是文本描述。

如果单纯最大化这个 $s_{CLIP}$ 分数就会有两个矛盾的问题

1：CLIP得分容易被攻击，即图像中的一些小邻域范围内易产生高得分的CLIP分数，比如下面这些红色圈圈的图像，可能图像与描述之间的CLIP分数很高，但显

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。