CLIP的后续工作

CLIP的后续工作

clip作为Open-AI给咱做的一个玩具,自从21年2月到22年5月看了一下差不多有一千篇有关的工作和论文,下面介绍一下一些比较有趣的工作,在github上star比较多的工作。

StyleCLIP

  • 论文链接:https://arxiv.org/pdf/2103.17249.pdf

  • 项目链接:https://github.com/orpatashnik/StyleCLIP

结合StyleGAN和CLIP的工作,提出了三种结合方法:

  1. 以文本为指导的 latent 优化,其中 CLIP 模型被用作一个损失网络,这是一种通用方法,但需要几分钟的时间来进行优化,以对图片进行操作;
  2. 一个训练用于特定文本提示的 latent 残差映射器。在隐空间中给定一个起点(需要操作的输入图像),映射器在隐空间中产生一个局部步骤;
  3. 一种在 StyleGAN 的 style space 中将文本提示映射到输入无关(全局)方向(global direction)的方法,提供了对操作强度和解耦的控制。

MAGIC

感觉就是GPT2解码出来,中间可能用到腾讯 AI Lab中SimCTG对比损失策略,然后使用CLIP进行计算与图片相似度,选择相似度高的文本生成内容,没啥创新性感觉,完全是别人模型的拼接,还即插即用,还零样本。

然后下游任务可以完成图片的标题生成和结合图片和文字进行生成故事,看了一下示例代码,生成标题就是从输入GPT2然后得到的文本中用CLIP计算相似度得分,根据相似度得分,这里论文叫做magic score进行decode,而故事生成就是生成的文本长一些,然后GPT2再根据给出简单文本进行生成和magic score解码。

下面是我尝试的几个zero-shot样例,感觉效果很不好吧,可能我选的图片太难了。

在这里插入图片描述

核心原理:

在这里插入图片描述

decode策略下一个token选择公式,其中前面两个合起来是SimCTG的contrastive search解码策略,可以看我另一篇将SimCTG的文章,最后一个公式则是本文唯一创新点。
在这里插入图片描述

这里就很简单一步,每预测一个token取前top-k个候选词,然后从GPT2 prefix开始到当前词计算与给出图片的CLIP相似度得分,然后使用个exp函数和权重系数计算出magic score得分。

总结

本篇论文就是基于他们SimCTG简单修改,连代码都几乎一样,唯一创新点就是这个magic score公式,而且感觉这个公式并不好,你每次只看一步进行topk预测与图片计算相似度,就很容易得到局部最优解,我觉得肯定需要改进一下,可以类似beam_search那样每次预测topk*topk个连续两个token,或者更多,虽然可能会影响解码速度,但效果应该更好一些。

其他因为GPT2这种一个字一个字往外蹦的生成模型,本身就感觉整体语义多样性不高,还是应该找找新的文本生成预训练模型,跟CLIP也不太匹配。

最后模型零样本上效果并不好,对GPT2进行领域fine-tune效果可能好些,CLIP暂时还没找到好的方法进行领域优化。

VQGAN-CLIP

在这里插入图片描述

上面是VQGAN的原理图,而本文主要使用CLIP代替VQGAN的鉴别器,本来自己写了个实验的代码,但是感觉VQGAN-CLIP训练太慢,我在colab上跑了一个小时,还是没迭代出效果特别好的图片,就不展示了。

DALLE 2

这个模型OpenAI官方还没给出训练好的模型,只能通过他们DALLE 2官网查看效果。简单看了下论文,把CLIP生成的嵌入向量作为先验知识,然后根据先验向量使用GLIDE作为Decoder生成图片。GLIDE的原理可以查看我上一篇博客。

其他CLIP相关工作

可以查看github awesome-clip
传送门 Awesome-CLIP

总结

基于CLIP的后续工作基本都是使用其生成的文本向量作为引导来进行图片合成,就百度的MAGIC是反过来使用图片来生成文本,而且使用还是GPT2,连跟CLIP同时public的DALLE使用的都是CLIP+GPT3来将图片作为序列进行生成预测。

而大部分图片生成任务中,基本还是基于GAN,VAE,扩散模型,自回归这几类常见的图片合成方法。目前最火的应该就是类似GLIDE和DALLE2的扩散模型的生成模型框架。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值