只用提示词,多模态大模型就能更懂场景中的人物关系了。
北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。
在这个过程中,最难的部分在于教会模型识别未见过的人物交互类型。
要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!
比如下图,先前的检测器在平衡已见和未见类别时遇到了困难,导致调和平均值较低,并且在未见类别上的表现较差。
相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。
至于CMMP方法如何解决未见类别,一句话:
在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。
总之,CMMP方法提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。
以上研究来自北大王选计算机技术研究所,相关论文已被顶会ECCV 2024接收。
零样本人物交互检测新框架
团队提出了一种使用CMMP进行零样本HOI(Human-Object Interaction)检测的新框架。
具体来说,CMMP将零样本人物交互检测分为两个子任务:
- 交互性感知的视觉特征提取
- 可泛化的交互分类
然后为每个子任务分别提出了解耦的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。
条件视觉提示(Pv)用于将空间和交互性感知的知识注入图像编码器,并通过实例级视觉先验(Cins)和交互的全局空间模式(Cgsp)进行约束。条件语言提示(PL)通过正则化损失受人设计的提示(CL)的约束。
交互性感知的视觉特征提取
团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。
为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的区域级二阶语义。
具体来说,研究人员将实例级信息作为先验知识融入条件视觉提示中。
给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度分数和检测到的实例的语义编码。
此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。
具体来说,对于每个标注的交互人物对,研究人员首先计算其一元和二元空间特征。
随后,使用K-means聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。
全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。
最终,研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。
可泛化的交互分类
为了在学习人物交互检测任务特定表示的同时保留CLIP的可泛化通用知识,团队在文本分支中采用了带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)。
该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。
具体来说,对于每个动作类别,研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。
类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。
为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。
该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。
团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。
训练CMMP
基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框,团队首先应用ROI-Pooling来提取不同区域的特征。
然后,将不同区域提取的特征进行融合,并通过交互分类器进行最终的交互类别预测。
整个模型在交互分类训练中使用了focal loss,同时还应用了语言正则化损失。
实验结果
在结果验证阶段,团队采用人物交互检测常用数据集HICO-DET,其中的600个人物交互类别由80个物体类别和117个动词类别组成。
为了验证模型的零样本性能,研究人员在HICO-DET上评估了五种零样本设置。
为了和现有方法实现公平比较,研究默认采用ViT-B/16作为骨干网络。
如下表所示,实验结果表明,CMMP在所有的零样本设定上,都在未见类上取得了最佳的性能,这证明了引入条件多模态提示的有效性。
如表中每种类型的最后一行所示,通过利用ViT-L/14骨干网来扩展CMMP以匹配CLIP4HOI的FLOPs,新方法在所有划分中都取得了最佳性能。
这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。
此外,先前的方法在已见和未见类别之间表现出严重的性能差异,表明其缺乏泛化能力。
而本研究的模型能够在很大程度上缓解这一问题,并且在泛化到以前未见的交互类别方面具有很高的潜力,这证实了带有约束的多模态提示的有效性。
更多细节请参考原论文。
项目主页:
https://sites.google.com/view/eccv24-cmmp/%E9%A6%96%E9%A1%B5
代码链接:
https://github.com/ltttpku/CMMP
论文链接:
https://arxiv.org/pdf/2408.02484
— 完 —
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。