SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs精读笔记

0 Abstract

  • 提出Semantic Pyramid AutoEncoder(SPAE),可以实现使冻结的LLM实现图像或视频的理解/生成任务;
  • SPAE可以将视觉内容转换为LLM可理解的语言,从而完成一系列多模态任务;
  • SPAE首次实现了利用冻结LLM实现图像生成,并且在图像理解任务(相同设置)上超过sota 25%。

1 Introduction

  • LLM通过词嵌入学习丰富的知识,但frozen的LLM在视觉模态上仍然有很大的挑战;
  • 一个问题的提出:如果提供适当的视觉表示作为输入,frozen LLM能否解决视觉模式下的任务?
  • 为了解决泛化问题,文章提出学习矢量量化器(vector quantizer)建立从其他模态语义space到冻结LLM的token space的映射,从而将图像转化为LLM可以理解的语言序列【pixel→LLM token space】;
  • 具体方法:给定一个图像,用学习的encoder将其转换为token space,使用LLM生成合适的词法token,并使用学习的decoder转换回像素空间。模型采用金字塔结构,从而可以动态调整token长度(例如对于理解任务使用短token,生成任务使用长token)。
    [图片]

2 Related Work

  • Multimodal generation with LLMs
    • Visual ChatGPT:使用ChatGPT生成prompt并通过另一个模型执行多模态任务;
    • FROMAGe:将 CLIP的embedding反向传播到OPT以进行图像理解和检索,但需要通过LLM反向传播,并且不支持图像合成。
  • Tokenization via vector quantization
    • VQ-VAE:通过矢量量化,将连续的embedding通过codebook映射到离散的向量空间。
  • Tokenization into lexical representations
    • LQAE:用BERT中的frozen词嵌入替换可学习的codebook从而链接English vocabulary。然而,LQAE tokens很少包含图像中的语义,重建质量比learned codebook差;
  • Few-shot learning with LLMs
    • 现有的few-shot视觉语言理解和生成框架仍然需要LLM参数更新。

3 Method

  • SPAE采用的是VQ-VAE的结构,包括编码器,量化器和解码器。编码器接受image输入生成连续的embedding,量化器将连续embedding离散化(codebook映射),再由解码器对离散化的embedding进行图像还原;
  • codebook由原型向量组成,这些原型向量被预先定义,每个embedding将被映射到离其最近的原型向量,从而实现向量的量化;
  • 本工作的重点是:证明了LLM在无需参数更新的条件下仍然可以完成新模态下的任务。

3.1 Semantic Pyramid AutoEncoder

Frozen language codebook. 本文使用pretrained frozen LLM作为量化过程中的codebook,与其他VQ-VAE不同,这里的codebook是可解释的潜在空间,即单词。对于一个输入k(来自于LLM vocabulary的子词),可以从LLM的任何层中获得该词的文本嵌入e(k)。
Token pyramid. 本文强制限制量化器中不同层生成的token长度为逐层增加,这种金字塔结构的设计目的是将语义集中在金字塔的上层,并允许使用更少的tokens表示语义。文章使用一个膨胀下采样器P(l)对图像嵌入的位置进行采样,表示如下:
[图片]

[图片]

在第l层中,对于image embedding z的每一个位置(x, y),量化器会获取离散tokens kl【codebook映射】:
[图片]

[图片]

文章使用流平均量化方法Streaming Average Quantization(SAQ)逐步重建具有动态token长度的图像,细化外观细节,从而提高图片质量。前l层的输出为已有tokens的平均值:
[图片]

[图片]

Semantic loss. 语义损失用于激励图像I与词法token k之间的语义相似度。词法token来自于一个定义的token pool s(I, k),其理想的定义是使用图像-文本对。本文使用了CLIP模型来进行这一步(每一层的token pool大小不同,更深的层有更大的token pool):
[图片]

[图片]

[图片]

[图片]

Appearance loss. 用于图像重建的损失函数,更新encoder以及decoder的参数,损失函数由三种不同模型的loss构成:
[图片]

3.2 Progressive In-Context Denoising

  • 在上下文学习中,由于表示中【分布变化】和【异常长序列,例如一个image被编码为500个token】的存在,使用单遍的自回归解码生成一个query的answer效果不佳;
  • 渐进式上下文去噪方法:在上下文学习模式下,赋予frozen LLM图像生成能力,生成更高质量的图像。
    Progressive generation.
    [图片]

[图片]

  • ct=st,等同于自回归过程AR;
  • ct=0,等同于非自回归过程NAR;
  • 实践中,使用AR生成前几层的token,再使用NAR生成剩余的token层。
    [图片]

In-context denoising.
[图片]

  • 在frozen LLM的in-context learning中,外部模态的学习能力远远不够:
    [图片]

4 Experimental Results

4.1 Main Evaluation

Few-shot image classification. 与sota方法Frozen和LQAE相比,SPAEgpt在所有任务上性能都优于LQAE,并且仅适用2%的token。mini-ImageNet 2-way benchmarks结果如下表:
[图片]

Tokenization quality. 与缺乏特定语义含义的 VQGAN token不同,SPAE token表现出高语义 CLIP 分数,在较低层更为明显。随着层数的增加,使用了更多的token,从而提高了重建质量。这种灵活性允许动态调整token长度以适应各种任务。
[图片]

Token pyramid visualization.
[图片]

  • SPAE 标记以金字塔结构组织,每一层都包含与图像语义相关的标记,顶层的几个标记似乎捕获了图像的主要主题,随着层数加深,揭示了更多的语义信息;
  • 虽然CLIP模型只有英语的词汇,但由于 LLM 的多语言词汇和嵌入,SPAE 的语义引导能够映射到其他语言的类似概念,例如荷兰语中的 koffie 和丹麦的 kaffe 作为与咖啡概念相对应的术语;
  • SPAE token可以在使用更多层以及token时以逐步细化的细节重建图像。

4.2 Qualitative Studies

  • 在image-to-text以及VQA任务上,将SPAE与使用相同冻结语言codebook(没有语义引导或金字塔SAQ)训练的baseline模型进行比较:
    [图片]

  • 在text-to-image任务上,证明了SPAE和冻结LLM启用的跨模态推理能力:
    [图片]

  • 对模型插值能力的探索:
    [图片]

  • 在条件生成图像任务上,体现了渐进式解码的必要性:
    [图片]

5 Conclusion

  • 示了frozen LLM在处理涉及图像和视频的多模态理解和生成任务方面尚未开发的潜力,而无需对这些模态进行显式训练;
  • 本文工作可以扩展到在大规模文本图像数据集上探索LLM的微调或适配器调优;
  • 局限:尽管我们的结果表明图像生成的合理性,但质量和多样性仍然远未达到最近在成对图像和文本数据上训练的文本到图像模型;
  • 附录信息很丰富。
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值