CVPR2025论文解析|LLMDet Learning Strong Open-Vocabulary Object Detectors under the Supervision of

论文标题

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models LLMDet: 在大型语言模型监督下学习强大的开放词汇目标检测器

论文链接

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models论文下载

论文作者

Shenghao Fu, Qize Yang, Qijie Mo, Junkai Yan, Xihan Wei, Jingke Meng, Xiaohua Xie, Wei-Shi Zheng

内容简介

本文提出了一种新的开放词汇目标检测器LLMDet,该检测器通过与大型语言模型(LLM)联合训练,利用图像级详细标题生成来提升性能。研究者们首先收集了一个名为GroundingCap-1M的数据集,其中每个图像都配有相关的定位标签和详细的图像级标题。通过微调开放词汇检测器,结合标准的接地损失和标题生成损失,LLMDet在多个基准测试中显著超越了基线模型,展现出卓越的开放词汇能力。此外,改进后的LLMDet还能够构建更强大的多模态模型,实现互利共赢。该研究表明,长图像级标题的生成不仅丰富了视觉表示,还增强了检测器的泛化能力。在这里插入图片描述

分点关键点在这里插入图片描述

  1. LLMDet框架

    • LLMDet通过与大型语言模型的联合训练,生成图像级详细标题和区域级短标题,提升了开放词汇目标检测的性能。该框架利用GroundingCap-1M数据集进行微调,结合接地损失和标题生成损失,显著提高了检测器的表现。
  2. GroundingCap-1M数据集

    • GroundingCap-1M是一个新收集的数据集,包含112万样本,每个样本由图像、简短的定位文本、标注的边界框和详细的图像级标题组成。该数据集的构建旨在提供丰富的语义信息,以支持LLMDet的训练。
  3. 长标题的优势

    • 与传统的区域级短标题相比,长图像级标题提供了更丰富的细节,包括物体类型、纹理、颜色、位置等信息。这种详细的描述有助于构建更强的视觉-语言表示,提升检测器的开放词汇能力。
  4. 互利共赢的多模态模型

    • 通过将LLMDet与大型语言模型结合,研究者们展示了如何在大型多模态模型中实现互利共赢。LLMDet不仅提升了开放词汇能力,还为大型语言模型的多模态性能提供了支持。在这里插入图片描述

论文代码

代码链接:https://github.com/iSEE-Laboratory/LLMDet

中文关键词

  1. 开放词汇目标检测
  2. 大型语言模型
  3. GroundingCap-1M
  4. 图像级标题生成
  5. 视觉-语言表示
  6. 多模态模型

CVPR论文合集:

CVPR论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值