北大彭宇新教授团队开源细粒度多模态大模型Finedefics

本文链接：https://blog.csdn.net/CSDN_430422/article/details/145687618

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。

细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别，如将鸟类（粗粒度大类）图像区分为西美鸥、灰背鸥、银鸥等（细粒度子类别）；将车区分为宝马、奔驰、奥迪等，奥迪区分为 A4、A6、A8 等；将飞机区分为波音 737、波音 747、波音 777、空客 320、空客 380 等。实现对视觉对象的细粒度识别，在现实生产和生活中具有重要的研究和应用价值。

针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了**「视觉对象与细粒度子类别未对齐」**是限制多模态大模型的细粒度视觉识别能力的关键问题，并提出了细粒度多模态大模型 Finedefics。

首先，Finedefics 通过提示大语言模型构建视觉对象的细粒度属性知识；然后，通过对比学习将细粒度属性知识分别与视觉对象的图像与文本对齐，实现数据 - 知识协同训练。

Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%，相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

论文标题：Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
论文链接：https://openreview.net/forum?id=p3NKpom1VL
开源代码：https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
模型地址：https://huggingface.co/StevenHH2000/Finedefics
实验室网址：https://www.wict.pku.edu.cn/mipl

背景与动机

多模态大模型是指提取并融合文本、图像、视频等多模态数据表征，通过大语言模型进行推理，经过微调后适配到多种下游任务的基础模型。

尽管现有多模态大模型在视觉问答、推理等多种任务上表现出色，但存在识别粒度粗的局限性：因为多模态大模型的视觉识别能力依赖大量训练数据，由于训练数据的细粒度子类别的标注成本巨大，实际也是无法细粒度标注的，导致现有多模态大模型缺乏细粒度视觉识别能力。

图 1. 多模态大模型在细粒度视觉识别上所需的 3 项能力

本文系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力，如图 1 所示，包括：

1. 对象信息提取能力：视觉编码器能够从图像中准确并全面地提取区分不同细粒度子类别的辨识性信息；

2. 类别知识储备能力：大语言模型能够储备充分的细粒度子类别知识；

3. 对象 - 类别对齐能力：基于提取的辨识性视觉信息与储备的细粒度子类别知识，在大语言模型的表征空间中对齐视觉对象与细粒度子类别，以建立输入图像到子类别名称的细粒度映射关系。

实验结果表明，「视觉对象与细粒度子类别未对齐」是限制多模态大模型具备细粒度视觉识别能力的关键问题。

技术方案

为解决视觉对象与细粒度子类别未对齐的问题，本文提出了细粒度多模态大模型 Finedefics。

如图 2 所示，Finedefics 构建过程包含 2 个主要步骤：

1. 首先通过属性描述构建，利用辨识属性挖掘获得区分细粒度子类别的关键特征，例如区分猫的品种的辨识性属性「毛色」、「毛型」、「毛皮质地」等，并利用视觉属性提取获得图像对象的辨识性属性对，例如「毛色：棕褐色」、「毛型：带有斑纹」、「毛皮质地：质地柔软」等，再利用属性描述总结将属性对转化为自然语言形式的对象属性描述，例如「图中小猫的毛为棕褐色，带有斑纹，质地柔软」；

2. 然后通过属性增强对齐，将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标，通过对象 - 属性、属性 - 类别、类别 - 类别对比学习充分建立视觉对象与细粒度子类别的细粒度对应关系，再利用以识别为中心的指令微调促进模型遵循细粒度视觉识别的任务指令。具体地，包含如下两个训练阶段：

图 2. 细粒度多模态大模型（Finedefics）框架图

阶段 I：属性增强的对比学习

首先，针对每个「对象 - 属性 - 类别」三元组，利用视觉编码器与可学习的模态连接层将转化为对象表征序列。

为更好捕捉全局表示，将标识符 [EOS] 输入大语言模型的嵌入层得到向量表示，并将其与对象特征序列拼接，得到新构建的对象表征序列。相似地，得到属性表征序列与类别表征序列。

然后，分别将输入到大语言模型中，将序列末尾的预测标志（token）分别作为的全局表示。

为简化表示，定义训练采用的对比学习损失包含以下 3 种：

对象 - 属性对比：为细粒度视觉识别数据集中的每个视觉对象挖掘困难负样本。具体地，针对每张样本图像，从三个最相似但错误的细粒度子类别数据中选择负样本，并将其属性描述与细粒度子类别名称作为困难负样本加入对比学习。

因此，引入困难负样本后的对象 - 属性对比（Object-Attribute Contrastive, OAC）损失表示如下：

其中，表示对象困难负样本的属性表征集合，Sim (⋅,⋅) 测量特征空间的余弦相似度。

属性 - 类别对比：相似地，引入困难负样本后的属性 - 类别对比（Attribute-Category Contrastive, ACC）损失表示如下：

其中，表示对象困难负样本的细粒度子类别表征集合。

类别 - 类别对比：由于难以在大语言模型的表征空间中区分不同细粒度子类别，提出了类别 - 类别对比（Category-Category Contrastive, CCC）损失如下：

此外，为保持模型的生成能力，将属性描述作为生成目标，采用下一个标记预测（Next Token Prediction）任务进行模型训练。因此，阶段 I 的优化目标定义如下：

其中，表示属性描述生成损失。

阶段 II：以识别为中心的指令微调

将细粒度视觉识别数据集构建为两种形式的指令微调数据：开集问答数据与闭集多选题数据，利用上述指令微调数据更新模型参数。因此，阶段 II 模型的优化目标定义如下：

其中，表示以识别为中心的指令微调损失。

实验结果

表 1. 细粒度多模态大模型（Finedefics）实验结果

表 1 的实验结果表明，Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%，相比阿里 2024 年 1 月发布的通义千问大模型（Qwen-VL-Chat）提高了 9.43%，相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

图 3. 视觉对象 - 细粒度子类别对齐效果可视化

图 4. 细粒度多模态大模型（Finedefics）案例展示

图 3 的可视化结果表明，（a）仅微调大模型，视觉对象与细粒度子类别表征的分布差异大；（b）仅引入对象 - 类别对比学习时，上述分布差异仍然难以降低；（c）同时引入对象 - 属性、属性 - 类别、类别 - 类别对比学习时，分布差异显著降低，优化了视觉对象与细粒度子类别的对齐效果，提升了多模态大模型的细粒度视觉识别能力。

图 4 的案例展示表明，相较于 Idefics2，本方法 Finedefics 能成功捕捉视觉对象特征的细微区别，并将其与相似的细粒度子类别对象显著区分。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！