[目标检测] Simple Multi-dataset Detection

猫猫与橙子

已于 2022-06-01 15:20:01 修改

阅读量744

点赞数

文章标签：目标检测

于 2022-06-01 14:50:21 首次发布

本文链接：https://blog.csdn.net/qq_22764813/article/details/125082847

版权

论文地址：https://arxiv.org/abs/2102.13086

代码地址：https://github.com/xingyizhou/UniDet

摘要

怎样得到一个普遍和广泛的目标检测系统？我们使用所有标注过得标签，这些标签跨越具有潜在不一致分类法的不同数据集；本文中，作者使用了一个简单的方法在大批量的数据集上用于训练一个统一的检测器。作者使用特定数据集训练协议和loss，但是共享一个通用的有特定数据集输出的检测分支。作者展示了怎样自动整合这些特定的数据集输出到常见的语义分类。与之前的工作相比，作者的方法不需要手工分类核对。本文的方法与在每个数据集上单独训练的模型效果相比一样好，同时可以在没有微调的情况下，将其泛化到没有见过的数据集上；

介绍

计算机视觉的目的就是生成一个广泛，普遍的有目的感知系统，将其用在场景数据中。但是目标检测数据集很多【18，22，24，33】，所以我们的模型就被锁定在了特定的区域；尽管这些数据带来了目标检测和分割算法的快速的发展；同时也有缺陷。单个训练数据被限制在了特定的域，标签类别业有限，不能够得到一个普遍的识别系统。是否可以通过联合各种各样的检测数据集减少这种限制？

本文中，作者直接将收集到的所有数据训练一个单模型。不同的数据集训练使用不同的loss，数据采样策略和schedules。本文展示了我们可以训练一个检测器，不同的数据集有不同的输出，数据集之间相互监督。我们的训练模拟了使用特定数据和常见网络训练。结果，本文中的单个检测器充分利用了所有的训练数据，在训练的域表现很好，在没有见过的域泛化性也很好。但是，这个检测器会产生多个类别的重复输出，特别是产生在多个数据集中（this detector produces duplicate outputs for classes that occur in multiple datasets）。

核心挑战就是整合不同的数据集在一个常见的类别，训练一个检测器推理出泛化（gengral）目标代替特定数据集的类别。传统方法使用手工制作分类器【19，47】,不仅耗时，还有错误倾向。作者展示了一个全自动化方式去统一多数据集检测系统，就是使用仅仅可视化数据。我们利用这样一个事实，即来自不同数据集的类似概念的对象检测器会触发类似的新对象（we use the fact that object detectors for similar concepts from different datasets fire on similar noval object）；这就允许我们定义在不同数据集上的代价，全自动化的优化一个常规的分类器。作者优化的目的就是发现一个统一的分类器，可以隐射到每一个数据集。针对每个数据集的统一分类的检测器使用新的0-1整数编码公式。在这个统一分类法上训练的对象检测器有一个从所有训练数据集中自动构建的大型概念词汇表；

作者使用了超大规模的数据对目标检测器做了评估。在三个大规模的数据集上训练，有COCO，Objects365，OpenImages【18】。首先，作者验证了单个检测器的性能和特定数据集训练的模型效果一样的好，一个统一的分类器还对检测性能有所提升。而且，本文的方法在各类训练样本训练后，在没有进行微调的作用下，在新的数据集上模型泛化性能也很好；

预备工作

目标检测目的就是预测图像中每个目标i的一个位置 $b_{i}\in R^{4}$ 和一个类别级的检测分数 $d_{i}\in R^{|L|}$ .

inter-dataset sampline strategy[26,35]——>class_aware sampling

在类别不平衡时的采样策略：这种操作会提升0.6%的精度

Class-aware Sampling.
To address this issue, we apply a sampling strategy, named “class-aware sampling”, during training.
We aim to fill a mini-batch as uniform as possible with respect to classes, and prevent the same example and class from always appearing in a permanent order. In practice, we use two types of lists,
an iteration, we first sample a class X in the class list, then sample an image in the per-class
image list of class X. When reaching the end of the per-class image list of class X, a shuffle
operation is performed to reorder the images of class X. When reaching the end of class list, a
strategy to effectively tackle the non-uniform class distribution, and the gain of accuracy on the validation set is about 0.6%.

有两个列表，一个类别列表X，一个每类列表的样本列表Y。在每次取mini-batch时，先取一个X,再取一个Y中对应的一个样本，即获得一张图片用于mini-batch。往后遍历X，依次类推获得mini-batch，用以训练迭代。若X遍历完毕，再打乱X，再从头遍历X。若Y中某一类样本遍历完毕，则打乱该列样本，下次取该列类别样本时，从该列头开始取。
————————————————
版权声明：本文为CSDN博主「oneTaken」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u011394059/article/details/77942121