《Learning to Detect Every Thing in an Open World》论文阅读-CSDN博客

本文链接：https://blog.csdn.net/qq_56324464/article/details/132020597

一.论文解决的问题

最先进的目标检测和实例分割网络在开放世界中检测新的物体表现得并不出色，关键原因在于没有任何标注的区域被抑制，导致模型将未标注区域作为背景。

为了解决这一问题，文章提出了一种数据增强和训练方案：Learning to Detect Every Thing (LDET)。为了避免一直隐藏的物体，文章提出了一种新的数据增强方法：BackErase，它的原理（通过复制粘贴来增强）是将注释的物体粘贴到从原始图像的一个小区域采样所得的背景图上。由于在这种合成图像上进行训练会受到领域迁移的影响，文章提出了一种多领域的训练策略，使模型能够推广到真实图像。

接下来笔者用论文中的几幅图来更直观地展示这篇论文在开放世界的目标检测和实例分割中所做出的改进：

如上图，训练类别不包括长颈鹿、垃圾箱、笔、风笛和浮标。Mask RCNN并没有将其检测出来，但是LDET却将这些训练集中没有的类别检测了出来。这便是LDET方法所做出的贡献。

二.LDET方法

1.数据增强（BackErase）：

目的：抑制未标记物体，突出已标记物体。

（1）图像预处理。对输入图像做高斯平滑处理，将平滑处理后的图片表示为I1，这样做的目的是减少前景图像（带有注释的前景区域）和背景图像之间高频内容（颜色变化幅度较大的地方，比如边缘）的差异。

（2）背景区域（background）的采样。从I1中随机的裁剪一个小区域，该小区域的长和宽是原始图像长和宽的八分之一，将其调整为与输入图像相同的大小作为背景，表示为I2，这样做的目的是避免背景中出现隐藏物体，从而做到了对背景中存在的未标记物体的抑制。

（3）前景区域（foreground）的采样。对I1首先通过下采样提取特征，之后通过上采样将其调整为原始尺寸。这样做的目的是为了避免模型学习中通过频率差异把前景和背景分离。（也就是让前景和背景的颜色变化更平缓）

（4）混合粘贴。为了在background中插入复制的前景物体，使用背景真实（ground-truth）注释的被粘贴物体的二进制掩码M，计算出合成图像：I1*M+I2*（1-M）。

（笔者认为阅读以下部分内容时，要对Mask-RCNN有一定的了解，建议精读：Mask R-CNN详解_mask rcnn_技术挖掘者的博客-CSDN博客论文题目：Mask R-CNN论文链接：论文链接论文代码：Facebook代码链接；Tensorflow版本代码链接；Keras and TensorFlow版本代码链接；MxNet版本代码链接一、Mask R-CNN是什么，可以做哪些任务？图1 Mask R-CNN整体架构Mask R-CNN是一个实例分割（Instance segmentation）算法，可以用..._mask rcnnhttps://blog.csdn.net/WZZ18191171661/article/details/79453780?ops_request_misc=&request_id=&biz_id=102&utm_term=Mask%20RCNN&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-79453780.nonecase&spm=1018.2226.3001.4187或者Mask RCNN 超详细图文入门（含代码+原文）_湘粤Ian的博客-CSDN博客我在入门学习计算机视觉的适合，看一些经典的论文原文比较吃力。于是通过看各种参考文献及查阅各路资料，入门的角度写了一些博客，希望能够和大家一起进步。_mask rcnnhttps://blog.csdn.net/IanYue/article/details/126657217?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169088297416782427460394%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=169088297416782427460394&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-4-126657217-null-null.142%5Ev91%5EinsertT0,239%5Ev12%5Einsert_chatgpt&utm_term=Mask%20RCNN&spm=1018.2226.3001.4187）

2.解耦的多域训练( Decoupled Multi-Domain Training)：

我们知道，在Mask-RCNN中，由于只输入真实图片，所以在经过Mask-RCNN网络后，直接输出了物体类别、边界框和二进制掩码。但是在LDET上，由于BackErase的增强，合成图像不太可能包含未标记的物体，而真实图像中未标记的物体可能存在，且经过实验表明，仅仅在合成图像上训练的效果不佳，考虑到在合成图像上训练的detector并不能很好地推广到真实图像，所以LDET使用解耦的多域训练方法，即分别训练真实图像和合成图像，在真实图像上计算掩码损失，在合成图像上计算检测损失。