CLIP的后续工作

be_humble

已于 2022-05-19 16:01:27 修改

阅读量2k

点赞数

分类专栏：论文笔记文章标签：计算机视觉深度学习人工智能自然语言处理

于 2022-05-18 16:29:06 首次发布

本文链接：https://blog.csdn.net/be_humble/article/details/124845321

版权

论文笔记专栏收录该内容

17 篇文章

订阅专栏

CLIP的后续工作

clip作为Open-AI给咱做的一个玩具，自从21年2月到22年5月看了一下差不多有一千篇有关的工作和论文，下面介绍一下一些比较有趣的工作，在github上star比较多的工作。

StyleCLIP

论文链接：https://arxiv.org/pdf/2103.17249.pdf
项目链接：https://github.com/orpatashnik/StyleCLIP

结合StyleGAN和CLIP的工作，提出了三种结合方法：

以文本为指导的 latent 优化，其中 CLIP 模型被用作一个损失网络，这是一种通用方法，但需要几分钟的时间来进行优化，以对图片进行操作；
一个训练用于特定文本提示的 latent 残差映射器。在隐空间中给定一个起点（需要操作的输入图像），映射器在隐空间中产生一个局部步骤；
一种在 StyleGAN 的 style space 中将文本提示映射到输入无关（全局）方向（global direction）的方法，提供了对操作强度和解耦的控制。

MAGIC

论文链接 [2205.02655] Language Models Can See: Plugging Visual Controls in Text Generation (arxiv.org)
项目链接 https://github.com/yxuansu/MAGIC
playground地址 magic_image_caption magic_story_generation

感觉就是GPT2解码出来，中间可能用到腾讯 AI Lab中SimCTG对比损失策略，然后使用CLIP进行计算与图片相似度，选择相似度高的文本生成内容，没啥创新性感觉，完全是别人模型的拼接，还即插即用,还零样本。

然后下游任务可以完成图片的标题生成和结合图片和文字进行生成故事，看了一下示例代码，生成标题就是从输入GPT2然后得到的文本中用CLIP计算相似度得分，根据相似度得分，这里论文叫做magic score进行decode，而故事生成就是生成的文本长一些，然后GPT2再根据给出简单文本进行生成和magic score解码。

下面是我尝试的几个zero-shot样例，感觉效果很不好吧，可能我选的图片太难了。

在这里插入图片描述

核心原理：

在这里插入图片描述

decode策略下一个token选择公式，其中前面两个合起来是SimCTG的contrastive search解码策略，可以看我另一篇将SimCTG的文章，最后一个公式则是本文唯一创新点。
在这里插入图片描述

这里就很简单一步，每预测一个token取前top-k个候选词，然后从GPT2 prefix开始到当前词计算与给出图片的CLIP相似度得分，然后使用个exp函数和权重系数计算出magic score得分。

总结

本篇论文就是基于他们SimCTG简单修改，连代码都几乎一样，唯一创新点就是这个magic score公式，而且感觉这个公式并不好，你每次只看一步进行topk预测与图片计算相似度，就很容易得到局部最优解，我觉得肯定需要改进一下，可以类似beam_search那样每次预测topk*topk个连续两个token，或者更多，虽然可能会影响解码速度，但效果应该更好一些。

其他因为GPT2这种一个字一个字往外蹦的生成模型，本身就感觉整体语义多样性不高，还是应该找找新的文本生成预训练模型，跟CLIP也不太匹配。

最后模型零样本上效果并不好，对GPT2进行领域fine-tune效果可能好些，CLIP暂时还没找到好的方法进行领域优化。