ICLR 2025|Top3高分论文HyCoCLIP:双曲视觉语言模型的组合蕴涵学习

论文链接:

https://arxiv.org/pdf/2410.06912

HyCoCLIP 简介

LLM 无法理解视觉和文本概念的固有层次性,因为传统模型(如 CLIP)主要关注欧几里得空间中的整体图像-文本对齐。本文提出了一种名为 HyCoCLIP 的新方法,该方法利用双曲空间(更适合表示层次结构),并引入了一种新颖的组合蕴涵学习方法,该方法同时考虑整个图像-文本对及其组合元素(如对象框及其文本描述)。

该方法不仅保留了图像和文本之间更广泛的上下文,而且还通过将更广泛的概念定位在双曲空间的原点附近并将更具体的概念定位在边界附近,保留了组件之间的层次关系(例如,单个对象与整体场景的关系)。这种方法旨在创建一种语义更丰富、层次意识更强的表示,可以更好地捕捉视觉和语言信息的自然结构。

HyCoCLIP 是什么?

HyCoCLIP 模型利用两个主要组件来学习双曲空间中图像和文本之间的层次关系。第一个组件使用对比学习方法,将完整图像与其完整文本描述对齐,将对象框(图像的裁剪区域)与其相应的文本描述对齐。重要的是,该模型旨在通过仅将整个图像与其他整个图像进行对比,将框级信息与适当的对应项进行对比,从而避免错误的负对,并认识到不同的图像可能包含相似的对象。

第二个组件引入了一种新颖的蕴涵学习机制,该机制可强化双曲空间中的层次关系。该模型将更一般的概念(如对象框及其描述)定位在更靠近空间原点的位置,而将更具体的概念(如具有完整上下文的完整图像)定位在离原点较远的位置。这是通过“蕴涵锥”实现的 - 双曲空间中定义概念之间父子关系的区域。

该模型使用这些锥体来维护模式间层次结构(图像和文本之间的关系)和模式内层次结构(整个图像与其部分之间的关系,或完整的文本描述与其组成部分之间的关系)。最终模型将这两个组成部分(对比学习和蕴涵学习)与适当的权重相结合,以全面理解视觉文本层次结构。

评估 HyCoCLIP

通过在 HyCoCLIP 学习到的双曲空间上应用直方图分析和降维技术(HoroPCA 和 CO-SNE),研究人员发现文本和文本框嵌入在双曲空间中表现出明显的层次分离。然而,由于对比损失收敛以及某些图像与其裁剪区域之间的固有相似性,图像和图像框嵌入往往具有相似的分布。在双曲空间中的点之间进行插值时(无论是在两幅图像之间还是从一幅图像到原点),该模型展示了合理的层次组织,这表明它成功地捕捉到了共享嵌入空间中有意义的语义关系。

实验结果表明,HyCoCLIP在零样本分类任务中的表现优于标准 CLIP 和 MERU ,并且表现出更好的场景理解和分层结构,尽管它也面临一些限制,例如在训练期间需要生成边界框信息以及在大规模检索任务中可能表现不佳。

我们观察到,尽管由于处理额外的框级信息而增加了训练期间的计算开销,但该模型保持了与其前代模型相当的推理效率,同时通过嵌入空间中图像和文本的不同区域组织提供了增强的可解释性。

可视化和插值实验提供了强有力的证据,表明 HyCoCLIP 成功学习了视觉和文本内容之间有意义的层次关系,即使在明确分离图像级和框级表示方面存在一些挑战。

喜欢的话,请别忘记点赞👍➕关注哦

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值