ECCV 2024:北大提出多模态提示学习:让大模型更懂人类在做什么!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

9906789be0a6bc7896f366e4d5e9e52c.png

北京大学王选计算机研究所雷廷 投稿
转载自:量子位(QbitAI)

只用提示词,多模态大模型就能更懂场景中的人物关系了。

北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。

45b74dc4b7febe891f5fb1b4d55f06bf.png

项目主页:

https://sites.google.com/view/eccv24-cmmp/%E9%A6%96%E9%A1%B5

代码:https://github.com/ltttpku/CMMP

论文:https://arxiv.org/pdf/2408.02484

在这个过程中,最难的部分在于教会模型识别未见过的人物交互类型

要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!

比如下图,先前的检测器在平衡已见和未见类别时遇到了困难,导致调和平均值较低,并且在未见类别上的表现较差。

相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。

3d8af5c249d89bc03a1648f672b83d37.png

至于CMMP方法如何解决未见类别,一句话

在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。

4d80a1141114ae682a98950c210d582c.png

总之,CMMP方法提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。

以上研究来自北大王选计算机技术研究所,相关论文已被顶会ECCV 2024接收。

零样本人物交互检测新框架

团队提出了一种使用CMMP进行零样本HOI(Human-Object Interaction)检测的新框架。

360270e3fd2a435d4b534c82b14720ad.png

具体来说,CMMP将零样本人物交互检测分为两个子任务

  • 交互性感知的视觉特征提取

  • 可泛化的交互分类

然后为每个子任务分别提出了解耦的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。

条件视觉提示(Pv)用于将空间和交互性感知的知识注入图像编码器,并通过实例级视觉先验(Cins)和交互的全局空间模式(Cgsp)进行约束。条件语言提示(PL)通过正则化损失受人设计的提示(CL)的约束。

交互性感知的视觉特征提取

团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。

为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的区域级二阶语义

具体来说,研究人员将实例级信息作为先验知识融入条件视觉提示中。

给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度分数和检测到的实例的语义编码。

此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。

具体来说,对于每个标注的交互人物对,研究人员首先计算其一元和二元空间特征。

随后,使用K-means聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。

全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。

最终,研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。

可泛化的交互分类

为了在学习人物交互检测任务特定表示的同时保留CLIP的可泛化通用知识,团队在文本分支中采用了带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)

该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。

具体来说,对于每个动作类别,研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。

类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。

为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。

该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。

团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。

训练CMMP

基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框,团队首先应用ROI-Pooling来提取不同区域的特征。

然后,将不同区域提取的特征进行融合,并通过交互分类器进行最终的交互类别预测。

整个模型在交互分类训练中使用了focal loss,同时还应用了语言正则化损失。

实验结果

在结果验证阶段,团队采用人物交互检测常用数据集HICO-DET,其中的600个人物交互类别由80个物体类别和117个动词类别组成。

为了验证模型的零样本性能,研究人员在HICO-DET上评估了五种零样本设置

为了和现有方法实现公平比较,研究默认采用ViT-B/16作为骨干网络。

如下表所示,实验结果表明,CMMP在所有的零样本设定上,都在未见类上取得了最佳的性能,这证明了引入条件多模态提示的有效性。

120c7ec07e6b550d51abd1625ceb2da9.png

如表中每种类型的最后一行所示,通过利用ViT-L/14骨干网来扩展CMMP以匹配CLIP4HOI的FLOPs,新方法在所有划分中都取得了最佳性能。

这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。

此外,先前的方法在已见和未见类别之间表现出严重的性能差异,表明其缺乏泛化能力。

而本研究的模型能够在很大程度上缓解这一问题,并且在泛化到以前未见的交互类别方面具有很高的潜力,这证实了带有约束的多模态提示的有效性。

更多细节请参考原论文。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
<think>嗯,用户让我介绍一下语义分割的国内外研究现状,我需要先理清楚这个领域的基本概念和发展脉络。语义分割是计算机视觉中的一个重要任务,目标是为图像中的每个像素分配类别标签,这在自动驾驶、医学影像分析等领域有广泛应用。首先,我应该回顾一下传统方法,比如基于图模型和随机场的方法,比如CRF,这些方法在深度学习兴起之前比较流行。 然后,深度学习的出现带来了转折点,特别是全卷积网络(FCN)的提出,这是语义分割的一个里程碑。接着是U-Net在医学图像上的成功应用,还有DeepLab系列通过空洞卷积和ASPP模块提升了性能。PSPNet的空间金字塔池化也是重要进展,这些都属于国内外的经典工作。 接下来,需要考虑近年来的发展趋势,比如Transformer架构的应用,如SETR和Segmenter,这些模型利用自注意力机制捕捉长距离依赖。另外,实时分割模型如BiSeNet和Fast-SCNN,满足实际应用中对速度的需求。弱监督和半监督学习也是一个方向,减少对标注数据的依赖。3D分割在医学和自动驾驶中的应用,比如V-Net和PointNet系列。 国内的研究情况,清华、北大、港中文等高校和企业如商汤、旷视都有贡献。例如,HRNet保持高分辨率特征,STDCNet优化实时性能,还有中文开放数据集如Cityscapes中文版的支持。 挑战部分,高分辨率图像的效率问题,小样本和弱监督学习,模型轻量化,以及领域适应和泛化能力。这些都是当前需要解决的问题。 用户可能是计算机视觉领域的学生或研究者,希望了解最新的研究动态,或者寻找研究方向。他们可能需要详细的国内外对比,突出国内成果,也可能对实际应用感兴趣。需要确保内容结构清晰,涵盖经典方法和最新进展,同时指出挑战和未来方向。要避免过于技术化,保持易,同时提供足够的深度,方便进一步查阅文献。</think>语义分割(Semantic Segmentation)是计算机视觉领域的核心任务之一,旨在为图像中的每个像素分配语义类别标签(如“人”“车”“天空”等),广泛应用于自动驾驶、医学影像分析、遥感图像解译等领域。以下是国内外研究现状的概述: --- ### **一、经典方法与深度学习革命** #### 1. **传统方法**(2015年之前) - 基于**图模型**(Graph-Cut、CRF)和**手工特征**(如SIFT、HOG)的方法占主导,但泛化能力有限,依赖复杂的后处理。 #### 2. **深度学习驱动的突破** - **FCN(全卷积网络,2015)**:首个端到端的语义分割模型,用卷积层替代全连接层,支持任意尺寸输入。 - **U-Net(2015)**:医学影像分割标杆,通过跳跃连接融合浅层细节与高层语义。 - **DeepLab系列**(2015起):引入**空洞卷积(Dilated Conv)**扩大感受野,结合**CRF后处理**优化边界,后续版本(如v3+)加入**ASPP模块**增强多尺度特征。 - **PSPNet(2017)**:提出**金字塔池化模块**(Pyramid Pooling Module),聚合多尺度上下文信息。 --- ### **二、国内外研究热点(近5年)** #### 1. **Transformer架构的崛起** - **ViT与SETR(2020-2021)**:Vision Transformer被引入分割任务(如SETR),利用自注意力机制捕捉长距离依赖。 - **MaskFormer(2021)**:将分割任务转化为掩膜分类问题,统一实例分割与语义分割框架。 - **国内成果**:如清华、商汤等团队提出的**SegNeXt**、**DPT**等模型,优化了计算效率与多尺度特征融合。 #### 2. **实时高效分割** - **轻量化设计**:如**BiSeNet**(双边分割网络)通过双分支结构平衡速度与精度,**Fast-SCNN**针对移动端优化。 - **知识蒸馏**:国内企业(如旷视、商汤)推动轻量模型训练,通过教师-学生网络提升小模型性能。 #### 3. **弱监督与半监督学习** - 减少对全标注数据的依赖,例如: - 使用**涂鸦标注**(Scribble)或**图像级标签**生成伪掩膜。 - **自监督预训练**(如MAE、DINO)提升模型初始化效果。 #### 4. **3D与点云分割** - **医学影像**:3D U-Net、V-Net处理CT/MRI体数据。 - **自动驾驶**:PointNet++、KPConv等处理LiDAR点云分割。 --- ### **三、国内外研究团队与数据集** #### 1. **国际知名团队** - 高校:MIT、斯坦福、牛津等。 - 企业:Google(DeepLab系列)、Meta(DETR系列)、NVIDIA(实时分割模型)。 #### 2. **国内代表性工作** - 高校:清华大学(HRNet)、北京大学(MaskFormer改进)、港中文(MMSegmentation框架)。 - 企业:商汤科技(分割模型部署优化)、旷视(实时分割模型)、华为(自动驾驶场景应用)。 - 数据集:**Cityscapes中文版**、**Pascal VOC中文标注**等本土化数据支持。 #### 3. **主流公开数据集** - 通用领域:Cityscapes、ADE20K、PASCAL VOC、COCO。 - 医学领域:BraTS(脑肿瘤)、LiTS(肝脏肿瘤)。 - 遥感领域:ISPRS Vaihingen、LoveDA。 --- ### **四、挑战与未来方向** 1. **效率与精度的平衡**:高分辨率图像(如4K)的实时分割仍需优化。 2. **小样本与弱监督**:降低对标注数据的依赖。 3. **跨域泛化**:解决医疗、自动驾驶中的领域差异问题(如不同医院的CT设备差异)。 4. **多模态融合**:结合文本、LiDAR、RGB等多源信息提升鲁棒性。 5. **可解释性**:医学等领域需模型决策过程透明化。 --- ### **五、学习资源推荐** - **框架**:MMSegmentation(OpenMMLab)、HuggingFace Transformers。 - **论文**:CVPR/ICCV/ECCV最新会议论文,重点关注Google Research、FAIR(Meta)、商汤科技等团队成果。 - **课程**:李飞飞CS231n(Stanford)、国内B站公开课(如霹雳吧啦Wz的语义分割教程)。 如需具体的模型细节或某方向深入分析,可进一步探讨!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值