ICML2025 | 细粒度图文对齐突破，360人工智能研究院发布全新一代图文跨模态模型FG-CLIP，开源并可商用-CSDN博客

关注公众号，发现CV技术之美

做为多模态+大模型研究的重要开创性工作，自20年OpenAI发布第一代图文跨模态模型CLIP以来已经过去了5年的时间。第一代CLIP模型及其后续各种改进模型广泛应用于互联网搜广推、办公检索、安防自动化等众多领域，并进一步做为backbone encoder应用于当前的各种图像生成、视频生成以及多模态大模型中。

以CLIP为代表的第一代图文跨模态模型因其基于图文整体特征进行对齐的对比学习原理，一直存在图文特征对齐粒度粗，无法实现图文细粒度理解的核心难题，制约了它在搜索、推荐、识别中的应用效果。

针对这一核心难点，360人工智能研究院冷大炜博士团队基于前期在多模态理解与多模态生成领域的工作积累，研发了新一代的图文跨模态模型FG-CLIP，攻克了显式双塔结构下图文信息的细粒度对齐难题。FG-CLIP同时具备图+文细粒度理解能力，文本细粒度能力可以有效区分目标细节属性的不同，如区分“a man with light blue jacket” vs “a man with grass green jacket”；图像细粒度能力可以有效对不同的图像局部区域进行理解，不会因图像裁切造成性能下降。FG-CLIP在关键的细粒度比对和细粒度理解上实现了大幅突破。

为了推动行业的共同进步，FG-CLIP已在Github和Huggingface上开源，权重可商用，相关论文也已被AI顶会ICML2025接收。

作者：谢春宇，王斌 360人工智能研究院
论文标题：FG-CLIP: Fine-Grained Visual and Textual Alignment
论文地址：https://www.arxiv.org/abs/2505.05071
开源地址：https://github.com/360CVGroup/FG-CLIP

图文跨模态模型

今天我们聊聊“图文跨模态模型”，一个能在语义层面实现图像信息和文字信息之间进行相互转换的“翻译官”。和能直接陪你聊天的DeepSeek/豆包模型不同，这位 “翻译官” 更像幕后的工程师 —— 你看不到它，但每天都在享受它的服务：找图更快、推荐更准、办公更省心…… 它就像科技产品的 “隐形默契搭档”，让体验更懂你的需求。

我们平时刷到的那些 “神操作” 其实都离不开它：比如用手机输入文字就能生成动漫插画、风景海报的绘图软件（Stable Diffusion、可图），还有能把 “小猫追蝴蝶” 的文字描述变成动态视频的工具（Sora、即梦），背后都需要这位 “翻译官” 先把文字和图片的信息 “翻译” 成机器能懂的语言，让两者 “对上频道”。

不只是这些有趣的应用，咱们日常生活里处处都有它的影子：

上网搜索：当你搜 “海边日落风景图” 时，它能帮你精准找到匹配文字描述的图片；
刷短视频 / 逛购物 App：你看到的美食推荐、衣服穿搭内容，其实是它根据你的浏览习惯，把 “你可能喜欢” 的文字标签和图片 / 视频 “牵线搭桥”；
办公软件：比如用智能文档问 “如何做年度总结”，它能快速从海量资料里找到图文结合的答案；
监控系统：商场、街道的摄像头能自动识别 “异常行为”，也是它在帮忙 “看图说话”，快速判断画面里的情况。

视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石，如多模态大语言模型，图像生成模型，视频生成模型等，都要用到图文跨模态模型进行视觉信息和/或文本信息的编码和模态对齐。与直接能与终端用户交流对话的智能问答不同的是，图文跨模态模型不被普通用户所见，但我们每天可以通过各种产品如互联网搜索，商品推荐，文档办公等来感受图文跨模态模型给我们的生活带来的上述现实便利。

当前普遍使用的图文跨模态模型如OpenAI CLIP，EVA-CLIP等，仍是基于第一代的整体图文对比学习算法训练得到，它们擅长捕捉全局信息，却难以分辨物体的细微属性差异，在处理细粒度视觉理解时面临非常大的挑战。例如，区分“一只黑色的狗”与“一只深棕色的狗”，或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异，往往会让模型陷入困惑。攻克图文跨模态模型存在的上述“近视”问题，提升模型对图文局部细节的深度理解，是我们关注的一个重要研究课题。

视力大挑战：找一找右边的哪句话，正确描述了左边图像里的内容？答案在最右侧。

可以发现，4个常用模型：CLIP、EVACLIP、SIGLIP、FINE-CLIP基于左侧图片选出的最匹配的文本描述是：A blue dog with a white colored head。显然这个描述是错误的，这些模型因为“近视”问题忽略了目标的属性匹配。正确答案是由今天我们要介绍的新模型FG-CLIP选出的 A light brown wood stool（一个浅棕色的木凳子），注意看，这个木凳子位于画面的中央偏右，悄悄隐藏在狗狗的身后。

FG-CLIP（Fine Grained CLIP）是由360人工智能研究院最新发布的图文跨模态模型，与现有模型相比，FG-CLIP有效解决了前述的“近视”问题，在关键的长文本理解+细粒度比对上实现了大幅的双突破。FG-CLIP在细粒度理解、开放词汇对象检测、长短文本图文检索以及通用多模态基准测试等下游任务中均显著优于原始CLIP和其他最先进方法。相关的代码和模型已在Github：https://github.com/360CVGroup/FG-CLIP 开源发布。

模型方法

FG-CLIP在传统双编码器架构基础上采用两阶段训练策略，有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐；次阶段引入区域对比学习与难细粒度负样本学习，利用区域-文本标注数据深化模型对视觉细节的感知能力，从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。

全局对比学习

全局对比学习通过整合多模态大模型生成的长描述，显著增强了模型的细粒度理解能力。这种方法不仅生成了内容丰富的长描述，还提供了更完整的上下文信息和更精准的细节描述。通过引入长描述，模型得以在全局层面感知和匹配语义细节，从而大幅提升了其上下文理解能力。

同时，FG-CLIP保留了原有的短描述-图像对齐机制，使长短描述形成互补。这种双轨并行的策略使模型既能从长描述中获取复杂的语义信息，又能从短描述中把握核心概念，从而全面提升了模型对视觉信息的理解和处理能力。

局部对比学习

局部对比学习通过精准对齐图像局部区域与对应文本描述，实现细粒度的视觉-语言关联。具体而言，我们首先运用RoIAlign从图像中精确提取区域特征，继而对每个检测区域施加平均池化操作，获取一组富有代表性的区域级视觉表征。

这些局部特征随后与预先构建的细粒度文本描述进行对比学习，促使模型建立区域视觉内容与文本语义之间的精确映射关系，从而掌握更为细致的跨模态对齐能力。

区域级难负样本对比学习

针对细粒度负样本稀缺这一挑战，我们提出了一种难细粒度负样本学习方法。我们将语义相近但与正样本存在细微差异的样本定义为难负样本，并通过对边界框描述进行属性层面的微调和重写来构建这些样本。为了充分利用难细粒度负样本提供的判别信息，我们在损失函数中引入了特定的细粒度负样本学习策略。

在训练过程中，模型需要同时计算区域特征与正样本描述及其对应负样本描述之间的相似度，从而学习更精细的视觉-语言对齐关系。

数据构建

通过LMM进行详细的图像描述重写

在初始训练阶段，FG-CLIP采用了经过增强优化的LAION-2B数据集，其中的图像标注经由CogVLM2-19B重新生成。这种改进显著提升了数据质量，使描述更加精确和内容丰富。传统LAION-2B数据集往往采用笼统的描述方式，难以支持精细化任务的需求。以鸟类图像为例，原始标注可能仅为"一只鸟"，而忽略了物种特征和环境细节。

通过引入先进的多模态大模型，生成的描述不仅准确识别目标对象，还涵盖了对象特征、行为模式及场景关联等多维信息。举例而言，简单的"一只鸟"被优化为"一只红翼黑鸟栖息在公园的树枝上"，大幅提升了描述的信息密度。

借助160×910B规模的NPU计算集群，我们在30天内完成了全部数据处理工作。实验结果显示，这种优化显著提升了模型在多个任务上的表现，充分证明了高质量文本标注对提升模型精确度和语境理解能力的关键作用。

创建高质量的视觉定位数据

对于训练的第二阶段，我们开发了一个高质量的视觉定位数据集，包含精确的区域特定描述和具有挑战性的细粒度负样本。我们根据GRIT提供的图像来制作整个数据集。

这一过程首先使用CogVLM2-19B生成详细的图像描述，确保描述全面且细腻，能够捕捉每张图像的全部背景信息。

随后，使用SpaCy解析这些描述并提取出指代表达。接着，将图像和指代表达输入预训练的开放词汇检测模型，这里采用Yolo-World以获得相应的边界框。

通过非极大值抑制消除重叠的边界框，仅保留预测置信度得分高于0.4的边界框。这一过程产生了1200万张图像和4000万个带有精细区域描述的边界框。

为生成高质量的细粒度负样本，我们在维持对象名称不变的前提下，对边界框描述的属性进行精细调整。具体而言，我们借助Llama-3.1-70B大语言模型，为每个正样本构建10个对应的负样本。为提升描述的可读性，我们移除了分号、逗号和换行符等标点符号。

经过对3,000个负样本的质量评估，98.9%的样本达到预期标准，仅1.1%被判定为噪声数据，这一比例符合无监督方法的可接受范围。这种方法产生的细微变化更贴近现实场景，能够更好地模拟物体在保持基本类目相似的同时，具体细节存在差异的情况。

这项大规模数据集由1200万张高质量图像构成，每张图像都配备精确的语义描述。

其中包含4000万个边界框标注，每个边界框都附带详尽的区域描述，同时还整合了1000万个经过筛选的难细粒度负样本。数据处理阶段调用了160×910B算力的NPU集群，历时7天高效完成。

这套丰富而系统的数据集显著提升了模型识别精细特征的能力，为FG-CLIP的训练奠定了扎实基础，使其在视觉与文本特征的细粒度理解方面表现卓越。

实验效果-量化指标

细粒度识别

我们基于FG-OVD数据集对开源图像-文本对齐模型进行了系统评估。与MSCOCO和Flickr等聚焦整体匹配的传统基准不同，FG-OVD专注于考察模型识别和定位图像局部区域的精细化能力。

在评估过程中，每个目标区域都配备了一个精准描述和十个经过精心设计的负向样本，这些负向样本通过对正确描述的策略性修改而生成。FG-OVD数据集划分为四个难度递进的子集，其区分度主要体现在待匹配文本之间的相似程度上。

具体而言，hard、medium和easy子集分别通过替换一个、两个和三个属性词来构造负样本，而trivial子集则采用完全无关的文本描述，形成了一个从细微差别到显著差异的评估体系。

由表中可以看到，FG-CLIP相对于其他方法，在各项指标上都能获得显著提升，这也证明了该方法在细粒度理解上的能力。

区域识别

我们在COCO-val2017数据集上开展零样本测试，评估模型识别局部信息的能力，测试方案参照FineCLIP和CLIPSelf。这项评估着重考察模型仅依靠文本描述对边界框内目标进行分类的表现。

具体实现中，FG-CLIP利用数据集中的边界框标注，结合ROIAlign技术提取局部区域的密集特征表示。在测试阶段，将所有类别标签作为候选文本输入，对每个边界框区域进行匹配和分类，并通过Top-1和Top-5准确率进行性能评估。

FG-CLIP同样在这个下游任务上取得了最好的结果。

开放词汇目标检测

为了进一步评估FG-CLIP的方法的细粒度定位能力，我们采用FG-CLIP作为下游开放词汇检测任务的Backbone。具体来说，我们采用了一个两阶段检测架构F-VIT，并在训练中冻结了视觉编码器。从表格中可以看出，FG-CLIP在开放词汇目标检测任务上表现更加突出，证明了经过高质量数据和优化方法训练的模型能够在更深层次的任务上取得优越的性能。

图文检索/分类结果

为了全面评估图像力度的任务，我们对长标题和短标题图像文本检索任务以及零样本图像分类任务进行了实验。如表所示，FG-CLIP在长/短标题图像-文本检索任务中都取得了显著的性能提升。

与旨在提高细粒度识别能力的 Long-CLIP 和 FineCLIP 相比，FG-CLIP在图像分类这种短文本-全图问题上的准确率方面具有明显优势。该模型处理不同图像描述长度的能力突出了其在多模态匹配中的通用性和鲁棒性。

实验效果-可视化对比

图像细节差异效果对比

我们针对文本输入对图像特征进行了可视化。图中，暖色调（如黄色）表示相关性较高，而冷色调（如蓝色）表示相关性较低。首先是针对相同的输入文本和图像，对不同模型的ViT特征进行比较，可以发现FG-CLIP在这种细粒度理解问题上表现更好。如图中的第二行所示，当输入“Black nose”时，FG-CLIP可以对该小目标实现准确的识别。