Detecting Everything in the Open World: Towards Universal Object Detection小陈读paper系列(泛读)

CVPR 2023|标签啊只标了500类,却可以检测7000类!

清华大学等提出通用目标检测算法

UniDetector

 通过在训练过程中图像和文本对齐,它可以自动扩展到检测那些视觉标注中没有出现的类别

OOD问题什么是out of distribution (OOD) objects 通俗易懂哈哈_:)�东东要拼命的博客-CSDN博客

论文链接:http://arxiv.org/abs/2303.11749v1

想要解决的问题(或者说是动机motivation)

传统的物体检测算法受限于繁琐的人工标注,在开放世界中出现新类别后往往需要“从头来过”,

即使只增加一个新类别,也要完整过一遍标注、训练、部署整个流程,

严重限制了其通用性。

该论文作者提出了UniDetector,就是要让目标检测器具有识别开放世界中大量类别的能力

 读下来嘞就是感觉很牛 哈哈

小翻译一下sangedian

1)基于图像和文本空间的对齐,利用多个来源和异构标签空间的图像进行训练,保证了通用表示的充分信息。

2)由于视觉和语言模态的丰富信息,使其易于推广到开放世界,同时保持已知和未知类别之间的平衡。

3)为了应对训练中的新挑战,作者还提出了提出的解耦训练方式概率校准

进一步提高了对新类别的泛化能力。

 确实 有两个标签来源 

图像和文本空间的对齐,利用个来源和异构标签空间的图像进行训练

 

 其中异构标签heterogeneous label spaces

 这里的所有分类头都采用区域特征和语言嵌入之间的相似性

单独的结构训练单个网络并将它们集成进行推理,

统一结构将多个数据集统一为一个数据集,

分区结构共享相同的主干但不同的分类头。

通过实验发现,在具有大量类别的目标检测数据集LVIS、ImageNetBoxes和VisualGenome上,UniDetector表现出强大的零样本泛化能力(也就是数据集中参与训练的图像样本为0个),超过传统监督算法平均4%以上!而在另外13个具有不同场景的目标检测数据集上,UniDetector仅使用3%的训练数据就达到了最先进的性能!

 

 普遍是涨一两个点甚至拉传统的卷积四五个点,所以 CVPR嘛哈哈

有机会再看看 实现细节 真牛啊 技术迭代吗

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东东要拼命

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值