背景:
使用CLIP和GAN来完成T2I任务,一种常规的做法就是最大化输入文本与生成图像在CLIP空间上的得分,论文中把这个分数叫做,也就是最大化这两者的余弦相似度(这是CLIP的原理),可以用如下公式表达。
表示GAN的输入,一般就是高斯分布中随机采样的噪声,但是在这,作者使用的是BigGAN,他在论文中也说了,BigGAN的生成器的输入就是随机噪声和图像类别,还说了这个BigGAN是在ImageNet上训练的,包含了1000个类别。
就是文本描述。
如果单纯最大化这个 分数就会有两个矛盾的问题
1:CLIP得分容易被攻击,即图像中的一些小邻域范围内易产生高得分的CLIP分数,比如下面这些红色圈圈的图像,可能图像与描述之间的CLIP分数很高,但显