《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

Long-CLIP模型针对CLIP在处理长文本输入时的局限性,提出知识保留的位置上插值和主要成分匹配策略,提高了长文本图像检索和零样本分类任务的性能,同时能无缝集成到其他模型中增强长文本处理能力。
摘要由CSDN通过智能技术生成

论文:https://arxiv.org/pdf/2403.15378.pdf
源码:https://github.com/beichenzbc/Long-CLIP

导读

CLIP(Contrastive Language–Image Pre-training),这个由 OpenAI 团队开源的多模态预训练模型,它通过对比学习的方式,同时学习图像和文本的表示,从而实现在没有针对特定任务训练的情况下(即Zero-Shot场景),对图像进行分类和理解的能力。

CLIP 模型的核心思想很简单,即利用大规模的图像和文本对进行训练,通过最大化匹配对的相似度并最小化不匹配对的相似度来学习视觉和语言的联合表示。

虽然 CLIP 发布了好几年,但包括其变体在内的相关模型目前仍被许多主流的多模态 LLM 所采用。然而,CLIP-based 模型的局限性也很明显:

  • 固定长度的文本输入:CLIP模型的文本编码器(如Transformer)通常有固定的最大序列长度限制(默认77个tokens),这意味着它无法直接处理超出这一长度的文本。对于复杂的文本描述,这无疑限制了模型的理解和应用能力。

  • 有效的长度严重不足:此外,实证研究指出其实际有效的长度往往不足20。这一限制使得CLIP难以处理详尽的描述,从而限制了其在需要基于丰富前提条件进行图像检索或文本到图像生成的应用场景中的适用性。

  • 细粒度信息的丢失:最后,在处理长文本时,为了适应模型的输入限制,需要对文本进行摘要或分割,这可能导致一些细粒度的信息丢失,从而影响模型的性能。

为此,来自上海AI实验室与上海交大提出了一种即插即用的替代方案——Long-CLIP,其不仅支持长文本输入,同时保持甚至超越其零样本泛化能力,并与CLIP潜在空间保持一致,使其能够无需任何额外适应直接替换 CLIP 在下游框架中的应用。

然而,实现这一目标并非易事,因为如果只是简单的微调可能会导致CLIP性能显著下降。此外,用支持更长上下文的语言模型替换文本编码器需要使用大量数据进行预训练,这将带来巨大的开销。

  • 11
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值