Detecting Everything in the Open World: Towards Universal Object Detection小陈读paper系列（泛读）

最新推荐文章于 2024-08-02 21:32:46 发布

东东要拼命

最新推荐文章于 2024-08-02 21:32:46 发布

阅读量430

点赞数 1

分类专栏：小陈读paper系列文章标签：目标检测计算机视觉人工智能 OOD问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_68308828/article/details/130340298

版权

小陈读paper系列专栏收录该内容

31 篇文章 1 订阅

订阅专栏

CVPR 2023｜标签啊只标了500类，却可以检测7000类！

清华大学等提出通用目标检测算法

UniDetector

通过在训练过程中图像和文本对齐，它可以自动扩展到检测那些视觉标注中没有出现的类别。

OOD问题什么是out of distribution (OOD) objects 通俗易懂哈哈_：）�东东要拼命的博客-CSDN博客

论文链接：http://arxiv.org/abs/2303.11749v1

想要解决的问题（或者说是动机motivation）

传统的物体检测算法受限于繁琐的人工标注，在开放世界中出现新类别后往往需要“从头来过”，

即使只增加一个新类别，也要完整过一遍标注、训练、部署整个流程，

严重限制了其通用性。

该论文作者提出了UniDetector，就是要让目标检测器具有识别开放世界中大量类别的能力。

读下来嘞就是感觉很牛哈哈

小翻译一下sangedian

1）基于图像和文本空间的对齐，利用多个来源和异构标签空间的图像进行训练，保证了通用表示的充分信息。

2）由于视觉和语言模态的丰富信息，使其易于推广到开放世界，同时保持已知和未知类别之间的平衡。

3）为了应对训练中的新挑战，作者还提出了提出的解耦训练方式和概率校准，

进一步提高了对新类别的泛化能力。

确实有两个标签来源

图像和文本空间的对齐，利用多个来源和异构标签空间的图像进行训练

其中异构标签heterogeneous label spaces

这里的所有分类头都采用区域特征和语言嵌入之间的相似性。

单独的结构训练单个网络并将它们集成进行推理，

统一结构将多个数据集统一为一个数据集，

分区结构共享相同的主干但不同的分类头。

通过实验发现，在具有大量类别的目标检测数据集LVIS、ImageNetBoxes和VisualGenome上，UniDetector表现出强大的零样本泛化能力（也就是数据集中参与训练的图像样本为0个），超过传统监督算法平均4％以上！而在另外13个具有不同场景的目标检测数据集上，UniDetector仅使用3％的训练数据就达到了最先进的性能！

普遍是涨一两个点甚至拉传统的卷积四五个点，所以 CVPR嘛哈哈

有机会再看看实现细节真牛啊技术迭代吗

东东要拼命

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东东要拼命 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。