本文介绍的工作在CLIP的基础上,提出了具有长文本能力的Long-CLIP,弥补了CLIP在长文本建模上的重大短板,并可以即插即用地利用在各种多模态任务中。

本文介绍了一个名为Long-CLIP的框架。Long-CLIP解决了CLIP有效长度不足、缺乏长文本能力的弊病,并在检索任务上获得了显著提升。此外,Long-CLIP保持了CLIP原始的特征空间,可以在图像生成等下游任务中即插即用地替换CLIP,以实现长文本细粒度图像生成。

Long-CLIP_细粒度

图1 Long-CLIP使用场景总览

CLIP对齐了视觉与文本模态,拥有强大的zero-shot泛化能力。因此,CLIP被广泛应用在各种多模态任务中,如图像分类、文本图像检索、图像生成等。

然而,CLIP的一大弊病是在于长文本能力的缺失。首先,由于采用了绝对位置编码,CLIP的文本输入长度被限制在了77个token。不仅如此,实验发现CLIP真正的有效长度甚至不足20个token,远远不足以表征细粒度信息。文本端的长文本缺失也限制了视觉端的能力。由于仅包含短文本,CLIP的视觉编码器也只会提取一张图片中最主要的成分,而忽略了各种细节。这对跨模态检索等细粒度任务是十分不利的。同时,长文本的缺乏也使CLIP采取了类似bag-of-feature(BOF)的简单建模方式,不具备因果推理等复杂能力。

Long-CLIP_细粒度_02

图2 CLIP的不足之处——缺乏长文本与复杂关系建模能力

为此,上海交通大学联合上海人工智能实验室的学者们提出了Long-CLIP模型。通过采用保留知识的位置编码扩充与加入核心成分对齐的微调策略,Long-CLIP模型仅仅额外采用ShareGPT4V数据集中的1M的(长文本,图片)数据对,通过不到100 GPU小时的微调,就可以在检索任务中获得显著提升(长文本-图像检索提升20%,短文本-图像检索提升6%)。不仅如此,Long-CLIP模型保持了CLIP原始的特征空间,因此可以在图像生成等下游任务上即插即用地替代原始的CLIP编码器,以实现长文本细粒度图像生成。以下,将介绍Long-CLIP采取的方法与应用场景。

  • 论文链接:https://arxiv.org/abs/2403.15378
  • 代码链接:https://github.com/beichenzbc/Long-CLIP

1.训练方法

一个简单的扩充输入长度、增强长文本能力的方法是先以固定的比率 λ₁ 对位置编码进行插值,再通过长文本进行微调。然而,这种策略会导致CLIP原始能力的急剧退化。前者破坏了CLIP充分建模的相对位置关系,而后者会使CLIP走入另一个极端:从仅仅关注最主要的特征变为以不论重要性一视同仁地涵盖所有细节。这导致模型在图片分类和短文本检索中的表现大幅下滑。

针对以上问题,研究者们提出了保留知识的位置编码扩充(Knowledge-Preserving Stretching of Positional Embedding)与加入核心成分对齐(Primary Component Matching)的微调策略,在保持甚至超过CLIP短文本能力的同时,解锁了了其长文本能力。

1.1保留知识的位置编码扩充

研究者们发现,CLIP的不同位置编码的训练程度是不同的。由于训练文本很可能以短文本为主,较低位的位置编码训练较为充分,能够精确地表征绝对位置,而较高位的位置编码则仅能表征其大致的相对位置。因此,对不同位置的编码进行插值的代价是不同的。基于以上观察,研究者保留了前20个位置编码,而对于剩下的57个位置编码,则以一个更大的比率 λ₂ 进行插值,计算公式可表示为:

Long-CLIP_人工智能_03

实验表明,相较于直接插值,该策略可以在支持更长的总长度的同时大幅提升在各个任务上的性能。

1.2加入核心属性对齐的微调

仅仅引入长文本微调会使模型走入另一个误区,即一视同仁地囊括所有细节。针对这一问题,研究者们在微调中引入核心属性对齐这一策略。具体而言,研究者们利用主成分分析(PCA)算法,从细粒度的图像特征中提取核心属性,将其余属性过滤后重建粗粒度图像特征,并将其与概括性的短文本进行对齐。这一策略既要求模型不仅能够包含更多的细节(细粒度对齐),同时还能识别并建模其中最为核心的属性(核心成分提取与粗粒度对齐)。

Long-CLIP_细粒度_04

图3 加入核心属性对齐的微调流程

2.应用场景

Long-CLIP在保留CLIP原始特征空间与能力的同时,大幅提升其长文本能力。因而,在图文检索、图像生成等领域,Long-CLIP可即插即用地替换CLIP。

2.1图文检索

Long-CLIP能够在图像与文本模态捕捉更多细粒度信息,从而可以增强相似图像和文本的区分能力,大幅提升图文检索的表现。无论是在传统的短文本检索(COCO、Flickr30k),还是在长文本检索任务上,我们的模型在召回率上均有显著提升。

Long-CLIP_细粒度_05

Long-CLIP_模态_06

图6 长文本-图像检索可视化,棕色文本为区分两张图片的关键细节

2.2图像生成

CLIP的文本编码器常被用于文本到图像生成模型中,如stable diffusion系列等。然而,由于长文本能力的缺失,用于生成图像的文本描述通常都十分简短,无法个性化地订制各种细节。而Long-CLIP无需任何训练,可以即插即用地替换CLIP作为文本编码器。Long-CLIP既可以突破77个token的限制,实现篇章级别的图像生成(右下),也可以在77个token内建模更多地细节,实现细粒度图像生成(右上)。而对于简单的短文本(左),由于Long-CLIP保持了CLIP的特征空间,可以和原始的CLIP生成相同的内容,图像质量不会产生退化。

Long-CLIP_模态_07

图6 图像生成效果演示,棕色文本为CLIP生成时遗失的文本细节

结论:

本文介绍的工作在CLIP的基础上,提出了具有长文本能力的Long-CLIP,弥补了CLIP在长文本建模上的重大短板,并可以即插即用地利用在各种多模态任务中。