ICLR 2025 | 北大彭宇新团队开源细粒度多模态大模型Finedefics

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

转载自:机器之心

本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果,相关论文已被 ICLR 2025 接收,并已开源

尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。

细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别,如将鸟类(粗粒度大类)图像区分为西美鸥、灰背鸥、银鸥等(细粒度子类别);将车区分为宝马、奔驰、奥迪等,奥迪区分为 A4、A6、A8 等;将飞机区分为波音 737、波音 747、波音 777、空客 320、空客 380 等。实现对视觉对象的细粒度识别,在现实生产和生活中具有重要的研究和应用价值。

针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」是限制多模态大模型的细粒度视觉识别能力的关键问题,并提出了细粒度多模态大模型 Finedefics。

首先,Finedefics 通过提示大语言模型构建视觉对象的细粒度属性知识;然后,通过对比学习将细粒度属性知识分别与视觉对象的图像与文本对齐,实现数据 - 知识协同训练。

Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

42fe0acebe63f9bfea696544b9cb94f9.png

  • 论文标题:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models

  • 论文链接:https://openreview.net/forum?id=p3NKpom1VL

  • 开源代码:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025

  • 模型地址:https://huggingface.co/StevenHH2000/Finedefics

  • 实验室网址:https://www.wict.pku.edu.cn/mipl

背景与动机

多模态大模型是指提取并融合文本、图像、视频等多模态数据表征,通过大语言模型进行推理,经过微调后适配到多种下游任务的基础模型。

尽管现有多模态大模型在视觉问答、推理等多种任务上表现出色,但存在识别粒度粗的局限性:因为多模态大模型的视觉识别能力依赖大量训练数据,由于训练数据的细粒度子类别的标注成本巨大,实际也是无法细粒度标注的,导致现有多模态大模型缺乏细粒度视觉识别能力。

6ab4541f1a83295c10be92a75d7cca17.png

图 1. 多模态大模型在细粒度视觉识别上所需的 3 项能力

本文系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力,如图 1 所示,包括:

1. 对象信息提取能力:视觉编码器能够从图像中准确并全面地提取区分不同细粒度子类别的辨识性信息;

2. 类别知识储备能力:大语言模型能够储备充分的细粒度子类别知识;

3. 对象 - 类别对齐能力:基于提取的辨识性视觉信息与储备的细粒度子类别知识,在大语言模型的表征空间中对齐视觉对象与细粒度子类别,以建立输入图像到子类别名称的细粒度映射关系。

实验结果表明,「视觉对象与细粒度子类别未对齐」是限制多模态大模型具备细粒度视觉识别能力的关键问题。

技术方案

为解决视觉对象与细粒度子类别未对齐的问题,本文提出了细粒度多模态大模型 Finedefics

如图 2 所示,Finedefics 构建过程包含 2 个主要步骤:

1. 首先通过属性描述构建,利用辨识属性挖掘获得区分细粒度子类别的关键特征,例如区分猫的品种的辨识性属性「毛色」、「毛型」、「毛皮质地」等,并利用视觉属性提取获得图像对象的辨识性属性对,例如「毛色:棕褐色」、「毛型:带有斑纹」、「毛皮质地:质地柔软」等,再利用属性描述总结将属性对转化为自然语言形式的对象属性描述,例如「图中小猫的毛为棕褐色,带有斑纹,质地柔软」;

2. 然后通过属性增强对齐,将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标,通过对象 - 属性、属性 - 类别、类别 - 类别对比学习充分建立视觉对象与细粒度子类别的细粒度对应关系,再利用以识别为中心的指令微调促进模型遵循细粒度视觉识别的任务指令。具体地,包含如下两个训练阶段:

081403a20200dbb759c0436bf270da4c.png

 图 2. 细粒度多模态大模型(Finedefics)框架图

阶段 I:属性增强的对比学习

首先,针对每个「对象 - 属性 - 类别」三元组d8857e741d7193950ed80e9e397f1c4d.png,利用视觉编码器20b6ebe2369c3a44a217558bd1788065.png与可学习的模态连接层 7b36817c60c7cf84cbb7e5d4b2da3266.png 将689b314d0f0f1a5c374f7b0127e04af0.png转化为对象表征序列1e29dcd75ee6e1abee5fb3154d3eabb3.png

为更好捕捉全局表示,将标识符 [EOS] 输入大语言模型的嵌入层得到向量表示,并将其与对象特征序列7042440339480bbaf51dfe9ef71ca87f.png拼接,得到新构建的对象表征序列 0961eae02a88e904ea5b02615437b539.png。相似地,得到属性表征序列 44bde8c173ac387854b789e52e49a0f3.png与类别表征序列eb04975fe876f78e73aff11db9dea6dd.png

然后,分别将 25441228b0085835ec94798e5c953275.png 输入到大语言模型中,将序列末尾的预测标志(token)8e760b5d50f681a2275ba2583db8b943.png 分别作为 bbc9970c45aad15bfb4ce4377a8e2310.png 的全局表示。

为简化表示,定义f0c2fb71811fa7182d177afa223ae3a7.png训练采用的对比学习损失包含以下 3 种:

对象 - 属性对比:为细粒度视觉识别数据集中的每个视觉对象 2b7147210658c70f9821b7d64c355685.png挖掘困难负样本。具体地,针对每张样本图像,从三个最相似但错误的细粒度子类别数据中选择负样本,并将其属性描述与细粒度子类别名称作为困难负样本加入对比学习。

因此,引入困难负样本后的对象 - 属性对比(Object-Attribute Contrastive, OAC)损失表示如下: 

517eb3d09b3d1632a1bc24b460866c27.png

其中,4cd4060524e1610ce7eae5077582fbbe.png 表示对象9c3799cb02bc4ba8788ecdf563333d29.png困难负样本的属性表征集合,Sim (⋅,⋅) 测量特征空间的余弦相似度。

属性 - 类别对比:相似地,引入困难负样本后的属性 - 类别对比(Attribute-Category Contrastive, ACC)损失表示如下:

72415ede85c209840530d1829a7c47f8.png

其中,57c4081e845bd939e983f2fe4c74e0ed.png 表示对象 da9af6d3cc8ce6f1325657934b2593aa.png 困难负样本的细粒度子类别表征集合。

类别 - 类别对比:由于难以在大语言模型的表征空间中区分不同细粒度子类别,提出了类别 - 类别对比(Category-Category Contrastive, CCC)损失如下:

65357fd7d6169ba238f8e79abd9abbbd.png

此外,为保持模型的生成能力,将属性描述作为生成目标,采用下一个标记预测(Next Token Prediction)任务进行模型训练。因此,阶段 I 的优化目标定义如下:

b926c009a748255ce0d5a5a2c65aee0e.png

其中,895983a27e756e7842da8c7af6c5d734.png 表示属性描述生成损失。

阶段 II:以识别为中心的指令微调

将细粒度视觉识别数据集构建为两种形式的指令微调数据:开集问答数据与闭集多选题数据,利用上述指令微调数据更新模型参数。因此,阶段 II 模型的优化目标定义如下:

b7a0624186d9d5334f165db67be97b07.png

其中,8cf5cd6168faaff81f65921cbccb3f6f.png 表示以识别为中心的指令微调损失。

实验结果

ce96f57d77a1b3d5120b04de5ed39fef.png表 1. 细粒度多模态大模型(Finedefics)实验结果

表 1 的实验结果表明,Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,相比阿里 2024 年 1 月发布的通义千问大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%

9b48a28bc01e159ab4937954d4951127.png

图 3. 视觉对象 - 细粒度子类别对齐效果可视化

6888704c161e2096a5c692e5b25c9049.png

图 4. 细粒度多模态大模型(Finedefics)案例展示

图 3 的可视化结果表明,(a)仅微调大模型,视觉对象与细粒度子类别表征的分布差异大;(b)仅引入对象 - 类别对比学习时,上述分布差异仍然难以降低;(c)同时引入对象 - 属性、属性 - 类别、类别 - 类别对比学习时,分布差异显著降低,优化了视觉对象与细粒度子类别的对齐效果,提升了多模态大模型的细粒度视觉识别能力。

图 4 的案例展示表明,相较于 Idefics2,本方法 Finedefics 能成功捕捉视觉对象特征的细微区别,并将其与相似的细粒度子类别对象显著区分。

更多详情,请参见原论文。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
### ICLR 2025会议论文格式要求 #### 论文结构与长度 提交至ICLR 2025的论文应遵循特定的结构和长度规定。正文部分不得超过8页,不包括参考文献和附录。附录可以用于提供额外的信息、证明或实验细节,但不应超过合理的篇幅[^1]。 #### 排版指南 - **字体与间距**:正文字体需采用Times New Roman,字号为10pt;行距设定为单倍行距。 - **页面设置**:纸张尺寸A4大小,上下左右边距各设为1英寸(约2.54厘米)。每页顶部居中位置放置页眉,包含文章标题缩写及页码编号。 - **段落编排**:首行缩进0.5英寸(约1.27厘米),段间不留空白行。 #### 图表处理 图表应当清晰可见并具有足够的分辨率以便于阅读理解。所有图像文件推荐保存为PDF格式以保持高质量显示效果。图注位于图片下方,表格标题置于上方,并且两者均需标注清楚说明性文字[^3]。 #### 参考文献管理 引用文献时要严格按照APA风格编写,在文中提及作者姓名和出版年份作为内嵌引用形式。参考书目列表按照字母顺序排列,并列出完整的出版信息。注意检查DOI链接的有效性和准确性[^4]。 ```latex \documentclass{article} \usepackage[a4paper, margin=1in]{geometry} % 设置页面参数 \usepackage{times} % 使用 Times 字体 \begin{document} % 正文内容... \bibliographystyle{apalike} % APA 风格参考文献样式 \bibliography{references} % 引用 .bib 文件中的条目 \end{document} ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值