t-rex2开放集目标检测

论文链接:http://arxiv.org/abs/2403.14610v1

项目链接:https://github.com/IDEA-Research/T-Rex

这篇文章的工作是基于t-rex1的工作继续做的,核心亮点:

  1. 是支持图片/文本两种模态的prompt进行输入,甚至进一步利用两种模态的组合来达到检测和检索的目的,比如文本检索目标、以图搜图或者两个组合的方式(文中详细论述了2种prompt输入的重要性和必要性)
  2. 还有一个非常关键的地方,t-rex2开放了一个负样本抑制的方法,这个极大的缓解了开集目标检测器中使用clip作为head导致的分类器出问题从而有大量误检的情况(我觉得)

可以作为zero-shot的检测器或者一些快速数据集生成的data-engine方式

1、核心框架

text-cv的双模态通用框架还是同时对文本和图像做编码,如文中所说,text依旧使用clip做文本编码,图像上用的标准的类似与DETR的方式进行编码,将单/多个图像转换为视觉embedding,然后进一步的利用了一个文本\图像对齐的模块来显示对齐,因此网络能够从文本和图像中互相学习到对方的feature,然后持续地提高相互的能力,该方法适用于4(3)种工作流:

  1. 交互式视觉prompt,类似于SAM,可以理解为框选一个目标后找到同一类目标(跨多个图像来框选也可以)
  2. 文本prompt,类似于clip或者glip/groundingdino的输入方式
  3. 混合prompt输入,结合文本和图像一起做inference

t-rex2模型框架:

如上图框架所示,一句话总结流程,分别对视觉和文本做特征提取, 视觉上结合backbone做视觉编码、输入prompt做位置编码、初始化向量concat(全局注意力+特征聚合)、交叉注意力得到最终的特征提取,然后结合DINO系列的box预测方式得到各个roi的坐标,利用clip的方式预测出label(训练和完整的inference代码似乎没有开源出来,只能看论文上的工作去猜了,源码更新后再把本文完善下);

框架支持同时对visual和text prompts进行encoder:

对于visual prompt,对于给定的归一化的坐标或者box位置4维坐标,文中提到继承于DETR依旧使用正余弦编码将其编码为位置embedding,然后使用一个线性层将其进行变换(物理意义上可能是一次特征提取?),其中B代表box的prompt,P代表point的prompt,如下图中的1式和2式所示,进一步地,此时文中初始化了一个可学习的embedding(这里特别像DETR系列后续的工作,初始化一个embedding作为类似于anchor或者其他作用)C并广播到K维度,C`是来自其他所有视觉输入的一个聚合向量,然后将C+C`的值相加后然后与第一步提取的位置向量进行通道上的concat(我听下来理解这段是将C广播得到C`,然后将B全局提取得到B`,然后做concat,具体还得看代码理解下),paper写的太复杂了,最后使用交叉注意力后在各个FPN层的特征中得到query,从框架上可以看到这些query物理意义上应该是自注意力到各个层关注的roi部分,然后如5式做自注意力的特征提取,这样保证提取出来的query应该是结合视觉prompt得到的(在前向做inference时是不是会因为不同的输入promp导致每一次inference的特征不一样)

对于text prompt,使用clip将其进行编码,此处略过,文章也没提,有兴趣的同学直接参照clip进行理解就好了;

BOX解码器:最后就是box解码器了,参照DINO以及他们实验室的工作,将传统检测的anchor作为query初始化,然后与grounding-dino一样是直接预测出各层目标的x、y、w、h,将解码器预测出的值得到Qdec,得到最后的box坐标:

类别估计就是使用clip的方式做predict了,毕竟开集检测应该都是这个套路(晚点还得看看代码确认下)

     文中提到了对每一个视觉目标和文本目标做对齐,类似于一个相互蒸馏的过程:

训练过程(损失函数):

损失函数分为5部分,对于框,使用L1+GIOU作为损失函数,对于分类,使用clip的logits和直接提取的logits计算相似性,还有一个是align对齐,L-DINO应该是文中提及的DINO中的加入噪声训练的部分,文中这里有一个细节,就是使用DETCLIP的方式,对于图片正样本边界以外的数据,随机进行负样本采集,这应该是一种很好的负样本抑制策略

输入的处理:

如果是多个输入,则对其求均值,如果结合文本,则是(视觉+文本)/2就可以了:

2、训练集生成和关键实验结果

训练集的维护:

当前各种多模态模型的关键是数据集如何从各种乱七八糟来源上获取,本文也提到了:

细节就不跟大家说了,自己阅读把,简单来说,就是通过各种公开数据集将数据转化为图像-文本的训练集,分为2个类型,将缺少文本/图像的数据全部转化为图像-文本匹配对,完成数据集生成

banchmark对标:

如上所示,红色的代表使用使用文本模态进行prompt的指标高于视觉prompt,而绿色的指标代表视觉模态指标高于文本模态输入,进一步论证本文的核心观点,使用两个模态的结果可以相互促进和互补。

这张图非常细节,之前还没有注意到,横坐标是在lvis中的降序排列的类别,大概意思就是在更frequent的场景中,text的作为grounding的输入方式是指标是更加高的,在common的场景中视觉略领先于文本,但在最长尾的场景中,视觉是明显高于文本的,说明如果想在自然世界的长尾分布中想取得一个好的检测效果,则就需要综合两种方式进行检测。

其他的就是一些实验细节和benchamek补充了,此处略过

### 目标检测的基本概念 目标检测是一种计算机视觉技术,旨在识别和定位图像或视频中的特定对象。其核心任务是对给定的输入数据进行分析,标记出感兴趣的对象,并提供它们的位置信息(通常以边界框的形式表示)。目标检测广泛应用于自动驾驶、安防监控、医疗影像分析等领域。 #### 1. **目标检测的核心要素** 目标检测的主要组成部分包括以下几个方面: - **分类**:确定图像中是否存在某个类别的对象及其具体类别[^3]。 - **定位**:通过绘制矩形边界框来精确定位对象在图像中的位置[^1]。 例如,在遥感影像飞机目标检测中,YOLO模型被用于快速而精确地识别和定位飞机[^2]。 #### 2. **主流目标检测框架** 当前常见的目标检测框架可分为两类: - **单阶段检测器**:如 YOLO 和 SSD,这类方法直接预测边界框和类别标签,速度较快但可能牺牲一定的准确性。 - **双阶段检测器**:如 Faster R-CNN,先生成候选区域再对其进行分类和调整,虽然更耗时但精度较高。 #### 3. **训练与优化策略** 为了提高目标检测的效果,研究人员开发了许多先进的技术和策略。例如,TTFNet 使用高斯核生成热力图来进行中心定位,并通过加权方式平衡不同尺度目标的影响。此外,像 ImageNet 这样的大型标注数据集为模型提供了丰富的训练资源,极大地推动了该领域的发展。 #### 4. **开放集合下的挑战与发展** 传统的闭合集合目标检测局限于预定义的一组类别,而在实际应用场景中往往面临未知类别的情况。为此,新型架构如 T-Rex2 被设计出来支持开放式目标检测,允许利用文本提示或者视觉示例灵活扩展到新类别上[^4]。 ```python import torch from torchvision.models.detection import fasterrcnn_resnet50_fpn, ssd300_vgg16 # 加载预训练模型 model_fasterrcnn = fasterrcnn_resnet50_fpn(pretrained=True) model_ssd = ssd300_vgg16(pretrained=True) def detect_objects(image_tensor, model): with torch.no_grad(): predictions = model([image_tensor]) return predictions ``` 上述代码片段展示了如何加载两种不同类型的目标检测模型并执行推理操作。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值