CVPR 2023|标签啊只标了500类,却可以检测7000类!
清华大学等提出通用目标检测算法
UniDetector
通过在训练过程中图像和文本对齐,它可以自动扩展到检测那些视觉标注中没有出现的类别。
OOD问题什么是out of distribution (OOD) objects 通俗易懂哈哈_:)�东东要拼命的博客-CSDN博客
论文链接:http://arxiv.org/abs/2303.11749v1
想要解决的问题(或者说是动机motivation)
传统的物体检测算法受限于繁琐的人工标注,在开放世界中出现新类别后往往需要“从头来过”,
即使只增加一个新类别,也要完整过一遍标注、训练、部署整个流程,
严重限制了其通用性。
该论文作者提出了UniDetector,就是要让目标检测器具有识别开放世界中大量类别的能力。
读下来嘞就是感觉很牛 哈哈
小翻译一下sangedian
1)基于图像和文本空间的对齐,利用多个来源和异构标签空间的图像进行训练,保证了通用表示的充分信息。
2)由于视觉和语言模态的丰富信息,使其易于推广到开放世界,同时保持已知和未知类别之间的平衡。
3)为了应对训练中的新挑战,作者还提出了提出的解耦训练方式和概率校准,
进一步提高了对新类别的泛化能力。
确实 有两个标签来源
图像和文本空间的对齐,利用多个来源和异构标签空间的图像进行训练
其中异构标签heterogeneous label spaces
这里的所有分类头都采用区域特征和语言嵌入之间的相似性。
单独的结构训练单个网络并将它们集成进行推理,
统一结构将多个数据集统一为一个数据集,
分区结构共享相同的主干但不同的分类头。
通过实验发现,在具有大量类别的目标检测数据集LVIS、ImageNetBoxes和VisualGenome上,UniDetector表现出强大的零样本泛化能力(也就是数据集中参与训练的图像样本为0个),超过传统监督算法平均4%以上!而在另外13个具有不同场景的目标检测数据集上,UniDetector仅使用3%的训练数据就达到了最先进的性能!
普遍是涨一两个点甚至拉传统的卷积四五个点,所以 CVPR嘛哈哈
有机会再看看 实现细节 真牛啊 技术迭代吗