LSR阅读笔记

Simultaneously Localize, Segment and Rank the Camouflflaged Objects

2021年cvpr的一篇论文

1 Our code and data is publicly available at: https://github.
com / JingZhang617 / COD - Rank - Localize - and - Segment .
More detail about the training dataset can be found in http://dpfan.
net/camouflage .

(水平有限,我只记录一下我感兴趣的部分,同时懒得打字主要靠翻译)

现有的伪装物体检测模型[10、22,?,,?]基于二元地面真实相机标记对象数据集[22,10,42]设计,如图1所示,只能揭示伪装对象的存在,而不说明伪装的程度。我们认为,对伪装物体与周围物体的显著性的估计可以导致更好地理解动物的进化。此外,了解伪装的水平可以帮助设计更复杂的伪装技术[35],从而使猎物可以避免被捕食者发现。为了模拟伪装物体的可检测性,我们引入了第一个伪装等级模型来推断伪装的水平。不同于现有的基于二进制地面真相的模型[10,22,?],我们可以产生基于实例级排名的伪装对象预测,这表明了人类观察伪装对象的全局难度。

  图一 :传统的“二进制”地面真理只提供了伪装物体的范围。我们提供了额外的固定排名注释,其中前者发现了使伪装的物体可检测到的区域,而后者突出了伪装的水平。“等级”中的蓝色表示伪装的等级更高(更难)。 

针对对应的伪装对象排名任务,制作一个数据集,可以参考

由于不存在基于排名的伪装对象检测数据集,我们用眼动器重新标记现有的伪装对象数据集[10,22],以记录每个伪装实例的检测延迟2。我们假设观察者注意到伪装的物体需要更长的时间,这个伪装实例就属于更高级别的层次。选取基于固定的伪装目标检测数据集,获得基于检测延迟的排序数据集,如图1所示。同时,固定数据集可用于估计伪装物体的鉴别区域。(下面有具体数据体制作过程)

网上据我们所知,只有一个大型的伪装目标检测测试数据集,即COD10K [10],而其他测试数据集[22,42]的大小小于300。然后,我们提供了另一个伪装的对象测试数据集,即NC4K,其中包括从互联网上下载的4121张图像。新的测试数据集可以用于评估现有模型的泛化能力。

我们的主要贡献可以总结为:

1)我们引入伪装对象排名(COR)伪装标记对象定位(COL)作为两个新的任务来估计伪装对象的难度,并识别使伪装对象明显的区域。2)我们为上述两个任务提供了相应的训练和测试数据集。我们还提供了最大的伪装目标检测测试数据集。3)我们提出了一个三重任务学习模型来同时定位,分割和排序的伪装对象。

 相关工作就不写了,

图2 :提出网络的概述。在我们的框架中有两个主要任务,即由排名地面真相和每个基于排名的二值分割图监督的伪装目标排名,以及一个针对伪装目标区分区域定位和分割的联合学习框架。利用输入的图像,对我们的模型进行端到端训练,以产生区分区域定位、伪装目标分割和伪装排名。“FPN”和“RPN”分别是特征金字塔网络[27]和区域建议网络[37]。

不过基于密集预测模型的排名可以参考:

对于某些属性,例如显著性,为了更好地理解任务,在注释中进行排名是很自然的。Islam等人。[2]认为,当询问多个观察者时,显著性是一个相对的概念。为此,他们收集了一个基于PASCAL-S数据集[26]的显著性排序数据集,其中包括由12名观察者标记的850张图像。基于此数据集,他们设计了一个编码器-解码器模型来预测不同级别的显著性掩码,以实现最终的排名预测。根据他们的想法,Yildirim等人。[58]基于自然图像中的物体被认为具有不同程度的重要性的假设,评估了显著性排名。Siris等人。[40]通过推断人们观看一幅图像时注意力转移的顺序来定义排名。他们的数据集是基于SALICON[18]提供的固定数据。由于目前据我们所知,没有伪装对象排名模型。

与显著性相似,伪装物体有水平,而更高层次背景匹配或破坏性颜色的伪装物体可能更好地隐藏在环境中,表明更高层次的伪装。基于此,我们基于排名的解决方案有助于更好地理解动物的进化。而显著性排序在单个图像内是相对的,我们将伪装排序定义为整个数据集的相对和渐进的,它是基于多个观察者注视时间的中位数生成的。(难道我平时都是在瞎搞,这确实很烦,也许现在出现了新的论文我也不知道,我无语了)

数据集的制作具体:

最基本的假设是,观众找到伪装物体所花的时间越长,伪装物体[46]的层次就越高。在此基础上,我们记录了每个伪装物体的检测延迟,并将其作为伪装排名的指标。

为此,我们使用了一个眼动仪(SMI RED250),并记录了每个伪装物体被注意到的时间。SMI RED250提供了三个采样率,60Hz、120Hz和250Hz,代表了记录的检测延迟的准确性。我们在实验中使用了250Hz的采样率。操作距离为60-80厘米,即从观察者到伪装图像的距离。水平方向为40厘米,垂直方向为20厘米,这是观察者为了发现伪装物体而移动的范围。

利用现有的伪装目标检测训练数据集,如COD10K [10]和CAMO数据集[22],我们邀请6名观察者执行伪装目标检测任务3。我们将不同观察者的中值观察时间定义为每个伪装实例的检测延迟。具体来说,我们将第j个观察者对第i个实例的观测时间定义为:

K是实例上的注视点数,t 0 j是观察者j观看图像的开始时间,t k ij是实例i上有观察者j的第k个注视点的时间。为了避免极高或极低注视时间的影响,我们使用中位数代替平均值:

其中x = {xl} n l=1是一个按升序索引的集合。考虑到观察者不同的感知能力,我们将最终的检测延迟例如i定义为6个观察者的中位数:4=中位数(4 tij),然后用它得到我们的排名数据集。

有两种不同的情况,可能导致在伪装的实例区域没有固定点。第一种是由眼动仪的机械错误或观察者的错误操作造成的。第二种是由于较高层次的伪装造成的,这使得很难发现伪装的物体。我们设置了一个阈值来区分这两种情况。如果超过一半的观察者忽略了该实例,我们将其视为一个硬样本,搜索时间设置为1(经过归一化后)。否则,将删除相应的观察者的值,并从剩余的检测衰减中计算出中值。

我们的数据集CAM-FR包含2000张用于训练的图像和280张用于测试的图像。该训练集包括来自COD10K-CAM训练集[10]的1711张图像,以及289张来自CAMO训练集[22]的图像。然后,我们将来自COD10K-CAM训练集的238张图像和来自CAMO训练集的42张图像重新标记作为测试集。在CAM-FR中,我们有不同的级别(排名0是背景),其中排名1是最难的级别,排名2是中位数,排名3是最简单的级别。 

基于我们的新数据集,我们提出同时定位,分割和排序伪装的对象。给定一个输入图像,前两个任务分别对固定图和分割图进行回归,而第三个任务涉及实例分割(伪装目标检测)和分类(伪装目标排序)。我们在一个统一的框架内构建三个任务,如图2所示,其中定位网络和分割网络集成在一个联合学习框架中。该排名模型与联合学习框架共享主干网络,以产生伪装排名。

(我个人是偏向于打分的,打一个0到100的分数,这样可以结合图像质量评价的方法,并且图像质量评价的数据集也是通过主观打分采集的真值标签)

主要关注排名的模型结果,分割和定位结构如图三中使用DRA 通道和空间注意力的也是被用烂了的, AsPP也是其他人的多尺度交互方式

还有一个基于反向注意力的结构回归整个伪装对象,具体来说,给定鉴别区域预测F,我们得到反向注意为1−F,然后我们将其作为注意,并与主干特征s1相乘,生成类似于[52]的反向注意引导特征{s r i } 4 i=1。然后,我们有“伪装解码器”从{s r i } 4 i=1中生成显著性预测S。(需要看代码才比较清楚)

图3:关节固定和分割预测网络的概述。第一部分表示固定解码器和伪装解码器生成相应地图的管道。第二部分是解码器的结构,其中“ASPP”是ASPP模块[57]。第三部分是解码器中双残余注意模块“DRA”的结构,其中“CAM”和“PAM”是来自[13]的通道注意模块和位置注意模块。 

然后是排名结构这才是重点

我们在maskR-CNN [15]的基础上构建了伪装排名模型来学习伪装的程度。与Mask R-CNN [15]的目标相似,伪装排名模型的目标是联合分割伪装物体并推断它们的等级。根据Mask R-CNN的标准管道,我们设计了一个如图2所示的伪装对象排序模型,“实例分割”分支由每个伪装实例的二值地面真实监督以及一个“实例分类”分支产生伪装对象排序

首先,我们将图像I∈Rh×w×3输入到主干网络(特别是ResNet50[16])来提取图像特征。然后利用“特征金字塔网络”(FPN)[27]对不同层次的特征图进行整合。最后一组特征映射记为P = {P1、···,Pn},其中n为层数。然后采用“区域建议网络”(RPN)[37],以整个图像的特征作为输入,检测可能包含伪装实例的区域,即感兴趣的区域(roi)。RPN中包含两个分支: 1)一个分类分支,它决定候选边界框是否包含伪装对象;2)一个回归分支,它对地面真实伪装对象边界框的坐标进行回归。

利用FPN生成的特征,使用ROIAlign模块[15]来提取roi的特征映射。然后,我们分别预测了伪装物体的等级和回归位置。最后,将检测到的伪装对象的特征输入一个分割分支,为每个伪装实例输出一个二进制掩码。

同时,这个损失函数也是是哪个任务一起的,

其中Lrpn是训练RPN,Lrank是排名模型的损失,Lmask只定义在排名预测不为0(背景)的区域,允许网络对每个排名的实例进行分割。Lrpn和Lrank都由分类损失和回归损失组成。对于RPN来说,它的目的是检查提案中伪装实例的存在,并回归其位置。对于等级模型,它推断出伪装的等级和回归物体的位置

不得不说这个排名分支的任务是基于分类方式的,感觉不能完全和伪装效果评价的任务符合,(纯属胡说)

( 一篇仅有的博士论文里面的外场实验是这么做的,我更想是一个具体的分数,还有理由如上,可以直接和网络处理后的标量结果进行监督训练,但是这种方式也需要尝试。)

由于实例分割数据集中标签的独立性,使用Mask-RCNN直接推断伪装的等级可能会产生不令人满意的结果。然而,在我们的排名场景中,排名是渐进的,例如,排名3(最简单的级别)比排名2(中位数)更容易注意到。此外,如果排名1的实例被误归为排名3而不是排名2,那么它应该受到更多的惩罚。为此,我们打算在等式中对Lrank采用这样的约束条件 4.具体来说,我们定义了一个伪装的实例相似度先验Sp,这是一个如图4.4所示的4×4矩阵,每个Sp(m,n)表示预测秩n的惩罚为秩m。给定图2中实例分类网络的预测,以及地面真实实例的秩,我们首先计算原始秩损失的Lrank(然后计算Lrank的平均值)。然后,我们用特定的相似性先验Sp(m,n)对其进行加权。如图4所示,预测的秩为2,地面真实秩为0,然后得到惩罚Sp(2,0)= 0.4,并将其与原始秩损失Lrank相乘,得到加权损失L0秩。虽然我们更关注错误分类的样本,但应该给正确样本的损失分配一个权重,使它们产生更自信的分数。

图4 标签相似度作为一个优先考虑我们的排名数据集的排名标签依赖性。P和Y分别表示预测和单热地面真相 

由于没有伪装对象排名模型所以是和这些比较的

并且还设计一个指标RMAE

一些进一步的思考:

属于maskrcnn 的在伪装任务上的拓展任务,分割目标的同时,进行分类,把伪装对象的伪装程度分为四个等级,

优点确实是可以作为伪装效果评价的网络,同时也有现成的数据集可以使用,大量工作应该是对应伪装对象排名的数据集制作上,并且由于是基于maskrcnn的网络结构上进行,没办法做一些比较创新性的修改。大概是属于网络结构大体不变,修改其中的backbone ,换成其他特征结构,最后使用的ROIalign也是固定的,有点头大。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

for technology

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值