《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

最新推荐文章于 2024-08-30 19:49:24 发布

Angelina_Jolie

最新推荐文章于 2024-08-30 19:49:24 发布

阅读量958

点赞数 11

分类专栏：计算机视觉文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Angelina_Jolie/article/details/137165124

版权

Long-CLIP模型针对CLIP在处理长文本输入时的局限性，提出知识保留的位置上插值和主要成分匹配策略，提高了长文本图像检索和零样本分类任务的性能，同时能无缝集成到其他模型中增强长文本处理能力。

摘要由CSDN通过智能技术生成

论文：https://arxiv.org/pdf/2403.15378.pdf
源码：https://github.com/beichenzbc/Long-CLIP

导读

CLIP（Contrastive Language–Image Pre-training），这个由 OpenAI 团队开源的多模态预训练模型，它通过对比学习的方式，同时学习图像和文本的表示，从而实现在没有针对特定任务训练的情况下（即Zero-Shot场景），对图像进行分类和理解的能力。

CLIP 模型的核心思想很简单，即利用大规模的图像和文本对进行训练，通过最大化匹配对的相似度并最小化不匹配对的相似度来学习视觉和语言的联合表示。

虽然 CLIP 发布了好几年，但包括其变体在内的相关模型目前仍被许多主流的多模态 LLM 所采用。然而，CLIP-based 模型的局限性也很明显：

固定长度的文本输入：CLIP模型的文本编码器（如Transformer）通常有固定的最大序列长度限制（默认77个tokens），这意味着它无法直接处理超出这一长度的文本。对于复杂的文本描述，这无疑限制了模型的理解和应用能力。
有效的长度严重不足：此外，实证研究指出其实际有效的长度往往不足20。这一限制使得CLIP难以处理详尽的描述，从而限制了其在需要基于丰富前提条件进行图像检索或文本到图像生成的应用场景中的适用性。
细粒度信息的丢失：最后，在处理长文本时，为了适应模型的输入限制，需要对文本进行摘要或分割，这可能导致一些细粒度的信息丢失，从而影响模型的性能。

为此，来自上海AI实验室与上海交大提出了一种即插即用的替代方案——Long-CLIP，其不仅支持长文本输入，同时保持甚至超越其零样本泛化能力，并与CLIP潜在空间保持一致，使其能够无需任何额外适应直接替换 CLIP 在下游框架中的应用。

然而，实现这一目标并非易事，因为如果只是简单的微调可能会导致CLIP性能显著下降。此外，用支持更长上下文的语言模型替换文本编码器需要使用大量数据进行预训练，这将带来巨大的开销。

最低0.47元/天解锁文章

关注

11
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

总的来说，Long-CLIP是一个改进的视觉-语言预训练模型，它通过知识保留的位置上插值和主要成分匹配策略，有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色，而且在零样本图像分类任务中保持了与原始CLIP相当的性能，同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。