《Learning to Detect Every Thing in an Open World》 论文阅读

一.论文解决的问题

最先进的目标检测和实例分割网络在开放世界中检测新的物体表现得并不出色,关键原因在于没有任何标注的区域被抑制,导致模型将未标注区域作为背景。

为了解决这一问题,文章提出了一种数据增强和训练方案:Learning to Detect Every Thing (LDET)。为了避免一直隐藏的物体,文章提出了一种新的数据增强方法:BackErase,它的原理(通过复制粘贴来增强)是将注释的物体粘贴到从原始图像的一个小区域采样所得的背景图上。由于在这种合成图像上进行训练会受到领域迁移的影响,文章提出了一种多领域的训练策略,使模型能够推广到真实图像。

接下来笔者用论文中的几幅图来更直观地展示这篇论文在开放世界的目标检测和实例分割中所做出的改进:

 

如上图,训练类别不包括长颈鹿、垃圾箱、笔、风笛和浮标。Mask RCNN并没有将其检测出来,但是LDET却将这些训练集中没有的类别检测了出来。这便是LDET方法所做出的贡献。

二.LDET方法

1.数据增强(BackErase):

目的:抑制未标记物体,突出已标记物体。

(1)图像预处理。对输入图像做高斯平滑处理,将平滑处理后的图片表示为I1,这样做的目的是减少前景图像(带有注释的前景区域)和背景图像之间高频内容(颜色变化幅度较大的地方,比如边缘)的差异。

(2)背景区域(background)的采样。从I1中随机的裁剪一个小区域,该小区域的长和宽是原始图像长和宽的八分之一,将其调整为与输入图像相同的大小作为背景,表示为I2,这样做的目的是避免背景中出现隐藏物体,从而做到了对背景中存在的未标记物体的抑制。

(3)前景区域(foreground)的采样。对I1首先通过下采样提取特征,之后通过上采样将其调整为原始尺寸。这样做的目的是为了避免模型学习中通过频率差异把前景和背景分离。(也就是让前景和背景的颜色变化更平缓)

(4)混合粘贴。为了在background中插入复制的前景物体,使用背景真实(ground-truth)注释的被粘贴物体的二进制掩码M,计算出合成图像:I1*M+I2*(1-M)。

笔者认为阅读以下部分内容时,要对Mask-RCNN有一定的了解,建议精读:Mask R-CNN详解_mask rcnn_技术挖掘者的博客-CSDN博客论文题目:Mask R-CNN论文链接:论文链接论文代码:Facebook代码链接;Tensorflow版本代码链接;Keras and TensorFlow版本代码链接;MxNet版本代码链接一、Mask R-CNN是什么,可以做哪些任务?图1 Mask R-CNN整体架构Mask R-CNN是一个实例分割(Instance segmentation)算法,可以用..._mask rcnnhttps://blog.csdn.net/WZZ18191171661/article/details/79453780?ops_request_misc=&request_id=&biz_id=102&utm_term=Mask%20RCNN&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-79453780.nonecase&spm=1018.2226.3001.4187或者Mask RCNN 超详细图文入门(含代码+原文)_湘粤Ian的博客-CSDN博客我在入门学习计算机视觉的适合,看一些经典的论文原文比较吃力。于是通过看各种参考文献及查阅各路资料,入门的角度写了一些博客,希望能够和大家一起进步。_mask rcnnhttps://blog.csdn.net/IanYue/article/details/126657217?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169088297416782427460394%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=169088297416782427460394&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-4-126657217-null-null.142%5Ev91%5EinsertT0,239%5Ev12%5Einsert_chatgpt&utm_term=Mask%20RCNN&spm=1018.2226.3001.4187

2.解耦的多域训练( Decoupled Multi-Domain Training):

我们知道,在Mask-RCNN中,由于只输入真实图片,所以在经过Mask-RCNN网络后,直接输出了物体类别、边界框和二进制掩码。但是在LDET上,由于BackErase的增强,合成图像不太可能包含未标记的物体,而真实图像中未标记的物体可能存在,且经过实验表明,仅仅在合成图像上训练的效果不佳,考虑到在合成图像上训练的detector并不能很好地推广到真实图像,所以LDET使用解耦的多域训练方法,即分别训练真实图像和合成图像,在真实图像上计算掩码损失,在合成图像上计算检测损失。

 训练的过程大致如下:

对于真实图像IR,首先经过Backbone网络(一般是CNN网络)得到feature map,并将特征图输入区域提议网络(RPN)生成区域提议,对于每一个区域提议,特征图根据区域进行ROI池化,得到固定大小的ROI feature,之后经过Mask Head层(一般几次卷积操作)得到掩码Mask。

对于合成图像IS,首先经过Backbone网络得到feature map,并将特征图输入区域提议网络(RPN)生成区域提议,对于每一个区域提议,特征图根据区域进行ROI池化,得到固定大小的ROI feature,之后经过Box Head层(一般FC层)进行分类和回归。

损失函数:

该式子中的第一块代表回归损失(即为了更好的对ROI进行定位),第二块代表物体分类损失(即将物体分类正确),第三块代表了掩码损失(即为了更准确地找出实例的位置)。其中Baug代表合成图像,Breal代表真实图像,ti代表ROI的位置,yi代表物体的得分、mi代表掩码预测。

三.实验

1.跨类别泛化

工作:基于COCO数据集,将注释的类别分为已知和未知,在已知的类别上训练模型,分别评估未知类别和所有类别的检测/分割性能。

 上图是VOC→COCO泛化的结果。LDET优于所有基线,在Mask RCNN上显示出很大的改进。

上图描述了Mask RCNN和LDET中前5个和最差5个类别的AR。可以看出,LDET优于Mask RCNN。

 ​​​​​​​​​​​​​​​​​​​​​​​​​​​​

上图表明是非VOC类上测量的精度和召回率曲线。可以看出,在大多数情况下,LDET的精度优于普通模型,这意味着LDET为新物体输出更精确的边界框。

2.跨数据集泛化

(1)从COCO数据集到UVO数据集

这是COCO→UVO泛化的结果。前四行是在VOC(COCO)上训练的模型;后四行是在COCO上训练的模型。由图所知,与基线相比,LDET在所有情况下都表现出较高的AP和AR,这表明了LDET在开放世界实例分割中的显著效率。

(2)从COCO数据集到Obj365数据集

 这是COCO→Obj365泛化的结果。由图可知,在非COCO类别和所有类别中,LDET都优于所有基线,且LDET相比于Mask RCNN上显示出很大的改进。这一结果证实了LDET在检测各种类别的物体方面是可推广的。

 上图描述了在从VOC数据集泛化到UVO数据集的情况下,精度和召回率之间的权衡,这表明了LDET更精确的优势。

四.总结

前瞻性:LDET是用于开放世界实例分割的挑战性任务。LDET在开放世界实例分割的基准数据集上表现出强大的性能,在自动驾驶数据集上表现出良好的效果。希望LDET成为一个基准点,并加速这一领域的进一步研究。

局限性:从一些可视化的例子中可以看出,LDET仍然不能检测到一些新的物体,尽管它的性能比基线好得多。如果新物体的外观与已知物体不同,LDET和大多数基线可能会错过它们。克服这一限制的方法之一是为训练数据注释广泛的类别。

(以上是笔者对于这篇论文的拙见,如有新的看法和见解中错误的地方,欢迎留言!)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值