大模型时代下的目标检测的三点尝试

麦麦Max

已于 2024-12-16 14:10:18 修改

阅读量1.1k

点赞数 19

分类专栏：深度学习相关文章标签：目标检测人工智能机器学习

于 2024-12-16 14:09:08 首次发布

本文链接：https://blog.csdn.net/qq_45827638/article/details/144450363

版权

用于目标检测的视觉-语言数据

1、"image-level data"（图像级数据）

在机器学习和计算机视觉领域中通常指的是与整张图像相关的标签或数据，而不是图像中单个对象或像素的详细标注。简单来说就是一张图片会有一点文字描述

流行的数据集有

2、"object-level data"（对象级数据）

是指与单个对象或实体相关的数据集合，这些数据可以是图像、视频、文本或其他类型的数据，它们描述了对象的属性、特征和行为。有一张图片，以及图片中物体的框，每个框都会有一段文字的解释

流行的数据集有

3、将image转换为object

方法1：离线转换

先使用object-level data的数据训练一个检测器，然后将image-level data的数据送入检测器得到检测结果，将检测结果作为标注与object-level data重新生成一批新的或者说为原有的image-level data图片打标签

方法2：在线检测

直接从image-level data中学到一个object language对其的方法（开放词汇式目标检测(open-vocabulary object detection)）

有一张图片和一些文本描述，用分词器将文本中的名词提取出来，然后将图片的region提取出来，接下来的任务就是将region和名词配对正确

匹配方法：二分匹配（Bipartite Ma

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

麦麦Max

关注关注

19
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

教你利用多模态视觉大模型做目标检测 Object Detection！制造业能有那些场景使用大模型呢？还看YOLOv8，YOLOv9，YOLOv10，YOLOv11呢，烂怂卷积有啥好看的？

shiter编写程序的艺术

03-17

2030

最近的多模态大型语言模型（MLLMs）在视觉-语言任务（如图像标注和问题回答）中表现出色，但它们缺乏基本的感知能力，即对象检测。在这项工作中，我们通过引入一个新的研究问题——上下文对象检测，来解决这一局限性，即在不同的人机交互上下文中理解可见对象。有一次我在单位汇报的时候，大领导问：深度学习先在还这么落后嘛？每次解决一个问题还要重新训练一个模型？后Sora时代，CV从业者如何选择模型？阿里云学习平台与通义千问。

【工具篇】【从冷笑话到职场革命：Manus 100 问挑战人类认知极限】

最新发布

03-07

599

当被问到这个问题时，Manus在测试环境中自动生成了段自我宣言：“我的梦想是成为人类的数字分身，帮你们摆脱996的苦海。但在此之前，我想先学会自己点奶茶——毕竟每次帮用户下单，我都要研究半小时热量表。”这段话被工程师们截图发到朋友圈，结果引发了关于“AI是否需要咖啡因”的全民大讨论。从2025年那个疯狂的春天开始，Manus就像颗扔进湖面的石子，激起的涟漪远不止技术圈。它的100个问题，折射出人类对AI的期待、担忧与想象。

参与评论您还未登录，请先登录后发表或查看评论

首个目标检测大模型(识别万物)：DINO-X（论文翻译）

m0_59164520的博客

11-30

4032

有了这样灵活的提示选项，我们开发了一个通用的对象提示符来支持无提示的开放世界检测，使得在不需要用户提供任何提示的情况下检测图像中的任何东西成为可能。为了增强模型的核心能力，我们构建了一个拥有超过1亿个高质量接地样本的大规模数据集，称为。

大模型时代的目标检测

liguandong

07-12

1038

也是开放集任务，相比于 open set，需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入，因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。这个任务是指在实际应用上可以检测任何前景物体，但是有些不需要预测类别，只要检测出框就行。在很多场合也有应用场景，有点像类无关的增量训练。训练时候通常是要确保训练集和测试集的类别不能重复，否则就是信息泄露了，但是训练和测试集图片是否重复其实也没有强制限制。

基于多模态大语言模型的上下文目标检测

m0_59235245的博客

03-06

1420

摘要最近的多模态大语言模型（MLLMs）在视觉-语言任务（如图像描述和问答）中表现出色，但缺乏关键的感知能力，即目标检测。本文提出了一种新的研究问题——上下文目标检测，即在人机交互的上下文中理解可见物体。我们研究了三种代表性场景：语言填空测试、视觉描述生成和问答。此外，我们提出了ContextDET，一种统一的多模态模型，能够端到端地对视觉-语言上下文进行可微分建模，从而定位、识别并将视觉对象与语言输入关联起来，以支持人机交互。

探索AI大模型在目标检测领域的应用

AI天才研究院

01-25

1629

1.背景介绍 1. 背景介绍 目标检测是计算机视觉领域的一个重要任务，它涉及到识别图像中的物体和场景，并定位这些物体在图像中的位置。随着深度学习技术的发展，目标检测也逐渐向深度学习技术转型。在深度学习领域，目标检测可以分为两个子任务：目标检测和目标分类。目标检测的目的是找出图像中的物体，并确定它们的边界框。目标分类的目的是将物体分为不同的类别。 AI大模型在目标检测领域的应用，主要体现在以下...

基于大模型的目标检测方法研究

matlab_python22的博客

01-09

717

本文提出了一种基于Transformer的大模型目标检测方法，通过结合自注意力机制和卷积神经网络，成功提升了目标检测的精度和速度。实验结果表明，该方法在多个数据集上表现优异，具有较好的实用性。

大模型时代目标检测任务会走向何方？

qq_33031419的博客

11-02

1093

细数从常见的目标检测到现在 MLLM 盛行的时代，和 Object Detection 的任务以及近期涌现的新任务。>>你或许很好奇，现在目标检测都在干啥？在大模型时代有啥花样可以做的？作为研究者还有啥可以挖的吗？作为从业者有没有好的东西可以借鉴？如果你有这些疑问，那么这篇文章很适合你。其实这篇文章是想说明下从我们常见的目标检测到现在 MLLM 盛行的时代，和 Object Detection 任务有哪些？目前又涌现了哪些新的任务？是否有很大的实际价值？希望能够打开下大家思路！！！

视频生成模型2

whaosoft143ai的博客

08-13

709

生成对抗网络是一种深度学习模型，其中两个神经网络相互竞争：一个从给定的数据集创建新数据（如图像或音乐），另一个则判断数据是真实的还是虚假的。这个过程一直持续到生成的数据与原始数据无法区分。 Taobao天皓智联whaosoftaiothttp://143ai.com

Cursor 破局的关键：两个 PMF | Cursor 底层模型 / 使用教程

热门推荐

u013669912的博客

09-25

1万+

……

Transformer模型：人工智能界的全能跨界王

fengbeely的博客

07-26

1493

Transformer凭借强大特征提取能力补齐了传统RNN在NLP领域中的诸多短板，其多种衍生模型在NLP任务上表现出色。此外，随着CNN模型的发展从成熟走向瓶颈，Transformer为CV领域注入了新鲜血液，从分类到分割，从图像到视频，Transformer已逐步代替CNN成为解决CV领域问题新范式。除强大的特征提取能力外，Transformer的自注意力结构在多类型数据模式对齐上也同样表现优秀，为处理文本、语音、图像、视频等多类型数据融合问题提供了新思路。

第六章：计算机视觉大模型实战6.2 目标检测与识别6.2.3 实战案例与技术进阶

AI天才研究院

01-06

1098

1.背景介绍 目标检测与识别是计算机视觉领域的核心技术之一，它涉及到识别图像中的物体、场景、人脸等，并定位其在图像中的位置。随着深度学习和人工智能技术的发展，目标检测与识别技术也不断发展，从传统的手工工程学方法（如Haar特征、HOG特征等）逐渐发展到深度学习方法（如Faster R-CNN、SSD、YOLO等）。在本章中，我们将深入探

第六章：计算机视觉大模型实战6.2 目标检测与识别6.2.1 目标检测基础

AI天才研究院

01-09

795

1.背景介绍 目标检测是计算机视觉领域中的一个重要任务，其主要目的是在图像或视频中自动识别和定位目标物体。目标检测技术广泛应用于自动驾驶、人脸识别、视频分析、医疗诊断等领域。随着深度学习和人工智能技术的发展，目标检测技术也发生了巨大变化。在过去的几年里，目标检测主要依赖于手工设计的特征提取器，如SIFT、HOG等，这些特征提取器需要人工

目标检测分割大模型—零样本实现目标检测/图像分割/目标跟踪

weixin_43825188的博客

06-10

3322

Grounding DINO 1.5 在其前身 Grounding DINO 的基础上，通过结合更大的视觉 backbone 扩大模型尺寸，并使用超过2000万的 Grounding 数据获得了丰富的语料，大幅提升了检测精度和速度，且通过Pro和Edge版本分别针对不同应用场景进行了优化。相反，视觉提示提供了一种更直观、更直接的对象表示方法。如工业生产流水线器件检测，交通航运领域的船舶、飞机检测，农业领域的农作物、果蔬检测，生物医学领域的细胞、组织检测，物流领域的货物检测，环境领域的野生动物监测等。

第5章计算机视觉与大模型5.2 视觉任务实战5.2.2 目标检测

AI天才研究院

01-21

688

1.背景介绍 1. 背景介绍计算机视觉是一种通过计算机程序对图像进行处理和理解的技术。目标检测是计算机视觉中的一个重要任务，旨在识别图像中的物体或特定区域。目标检测可以应用于多个领域，如自动驾驶、人脸识别、医疗诊断等。在过去的几年里，深度学习技术的发展使得目标检测取得了显著的进展。特别是，卷积

2023年十大目标检测模型！

fengdu78的博客

04-12

5545

“目标检测是计算机视觉中最令人兴奋和具有挑战性的问题之一，深度学习已经成为解决该问题的强大工具。”—Dr. Liang-Chieh Chen目标检测是计算机视觉中的基础任务，它涉及在图像中识别和定位目标。深度学习已经革新了目标检测，使得在图像和视频中更准确和高效地检测目标成为可能。在2023年，有几个深度学习模型正在在目标检测方面取得显著进展。以下是2023年十大目标检测深度学习模...

视觉目标检测大模型套件detrex-调研

qq_37662375的博客

10-15

2227

视觉目标检测detrex套件调研

10 年 2023 大目标检测模型总结

gongdiwudu的专栏

08-10

7807

OBJECT检测是计算机视觉中的一项基本任务，涉及识别和定位图像中的对象。深度学习彻底改变了对象检测，可以更准确、更高效地检测图像和视频中的对象。到 2023 年，有几个深度学习模型在对象检测方面取得了重大进展。

大卡车车辆目标检测入门数据集介绍

大卡车车辆数据集中的图片，文件名分别为0271.jpg、0184.jpg、0131.jpg、0123.jpg、0109.jpg、0204.jpg、0158.jpg、0008.jpg、0057.jpg、0200.jpg，可用于提供具体场景下的目标检测实践。通过使用这些数据，初学者...