20201最优检测精度 | 新候选方法大大提升目标检测精度

最新推荐文章于 2024-07-02 15:51:11 发布

计算机视觉研究院

最新推荐文章于 2024-07-02 15:51:11 发布

阅读量794

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/gzq0723/article/details/115842937

版权

计算机视觉研究院专栏

作者：Edison_G

有研究者着重于半监督目标检测，以提高基于候选的目标检测器的性能。通过对标记数据和未标记数据进行训练。然而，由于GT标签的不可用性，在未标记的数据上训练目标检测器并不是很简单的。

长按扫描二维码关注我们

一、简要

为了解决这个问题，研究者提出了一种proposal learning方法，以从标记和未知的数据中学习候选特征和预测信息。该方法由一个自监督的专业学习模块和一个基于一致性的候选学习模块组成。在自监督的候选学习模块中，分别提出了一个候选位置损失和一个contrastive loss来学习上下文感知和噪声鲁棒的候选特征。

在基于一致性的候选学习模块中，将一致性损失应用于候选的边界框分类和回归预测，以学习噪声鲁棒的候选特征和预测信息。新方法具有以下好处：

1)争取在候选学习过程中提供更多的上下文信息；

2)有噪声的候选特征加强一致性，允许噪声鲁棒的目标保护；

3)构建一个通用的高性能半监督目标检测框架，该框架可以适应基于不同主干架构的基于候选的目标检测器。

实验在COCO数据集上进行，包括所有可用的标记和未标记数据。结果表明，新提出的方法始终提高了全监督基线的性能。特别是，在与数据蒸馏相结合后，新方法分别与全监督基线和数据蒸馏基线相比，平均提高了约2.0%和0.9%。

二、背景及动机

研究者主要着重于基于候选的目标检测器的SSOD（Semi-Supervised Object Detection，Two-stages目标探测器，由于其有高性能）。Proposal-based的目标检测器通过如下获取目标检测：1)首先生成可能包含对象的候选区域，2)然后生成候选特征和预测（即边界框分类和回归预测）来检测目标。特别地，研究者的目标是通过从标记和未标记数据中学习候选特征和偏好来改进第二阶段。对于标记数据，使用GT标签可以直接获得训练监督；但对于未标记的数据，由于GT标签的不可用性，不能直接学习候选特征和预测。为了解决这个问题，除了标准的标记数据的全监督学习，如下图所示(a)所示。

研究者就提出了一种名为候选学习的方法，它支持自监督候选学习模块和基于一致性的候选学习模块，从标记和非数据中学习候选特征和预测，见下图。

三、新框架详细介绍

对于每个标签数据(I,g)∈DI，根据标准的全监督学习直接去训练目标检测器，损失如下定义：

其中，第一个和第二个表示RPN和R-CNN损失。更多细节损失函数可以查阅[Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149]文章。

研究者应用了所定义的标准的全监督损失，自监督的候选学习损失L以及基于一致性的候选学习损失到未标记的数据。目标检测器在这些数据上训练，及反向传播在如下公式中优化：

所以，整体的损失公式如下：

Self-Supervised Proposal Learning

之前的的工作表明，目标检测器可以从上下文中获益。研究者提出的的自监督候选学习模块分别使用候选位置损失和对比损失来学习上下文感知和噪声鲁棒的候选特征。为了计算候选位置损失，受[Carl Doersch, Abhinav Gupta, and Alexei A Efros. Unsupervised visual representation learning by context prediction. In Proceedings of the IEEE international conference on computer vision, pages 1422–1430]方法的启发以候选位置预测为借口。更具体地说，通过全连接层中的两个参数，计算位置预测L，其中两个全连接层的输出数分别为1024和4。然后使用ℓ2距离计算候选位置损失，参见如下公式，其中P˜n=(xn/W、yn/H、wn/W、hn/H)是Pn的标准化版本，W，H分别表示图像的宽和高。

为了计算对比损失，以实例判别作为 pretext task,，遵循[Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722]。更具体地说，首先使用带有参数的全连接层和ℓ2归一化层来投影F到嵌入式候选特征F(减少对F的依赖性)，其中全连接层的输出数为128。然后将对比损失写为如下等式，其中τ是一个温度超参数。

整体损失如下：

Consistency-Based Proposal Learning

为了进一步训练噪声鲁棒目标检测器，研究者应用一致性损失来确保噪声候选预测与原始候选预测之间的一致性。更准确地说，将一致性损失应用于边界框分类和回归预测。对于边界框分类预测的一致性损失，研究者使用KL散度作为损失来强制执行来自有噪声候选的类预测，并使其原始候选是一致的。

与只包含分类结果的图像分类不同，目标检测可以预测目标的位置。为了进一步保证候选预测的一致性，计算了如下等式中的一致性损失，强制执行对象位置预测从有噪声的候选和他们的原始候选是一致的。这里使用标准的边界框回归损失，即平滑的ℓ1损失。只选择了最简单的噪声候选特征来计算这个损失的训练稳定性。

然后，可以了解到更有噪声-鲁棒的候选特征和预测：

四、新框架实验

五、简单总结

在本研究中，研究者着重于基于候选的目标探测器的半监督目标检测。为此，提出了一种候选学习方法，它由自监督候选学习模块和基于一致性的候选学习模块组成，从标记和未标记数据中学习候选特征和预测。自监督候选学习模块分别通过候选位置损失和对比损失来学习上下文感知和噪声噪声候选特征。基于一致性的候选学习模块通过对边界框分类和回归预测的一致性损失来学习噪声鲁棒的候选特征和回归预测。实验结果表明，新提出方法始终优于全监督的基线。

同样值得一提的是，可以通过结合新方法和数据蒸馏来进一步提高检测性能。

在未来，研究者可将探索更多的自监督学习和半监督学习方法的半监督目标检测，并探索如何将新方法应用于半监督实例分割。

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！