CVPR 2021
Yunqiu Lv, Jing Zhang, Yuchao Dai, Aixuan Li, Bowen Liu, Nick Barnes, Deng-Ping Fan
论文地址
一、简介
提出了Joint localization and segmentation框架,其中,Fixation Decoder生成discriminative region,该区域与周围的环境有更高的对比度,其实也就是大致的伪装对象的位置。Camouflage Decoder生成最终的预测图,使用反向关注的思想,来获得结构化的信息。
提出了Inferring the ranks of camouflaged objects框架,该框架结合了定位、分割和分等级三个功能。
提出了伪装对象排名(COR)和伪装对象定位(COL)这两个新任务,以估计伪装对象的难度并识别伪装对象明显的区域。
二、方法
2.1 数据集
我们从CAMO数据集和COD10K数据集中选取一些图片进行定位标注和难度排名分级,并将该这个新的数据集称为CAM-FR。关于难度排名分级,是假设观看者找到伪装对象所需要的时间长短来确定的。
CAM-FR数据集包含2000张训练图像和280张测试图像。训练图像有1711张来自COD-10K数据集,有289张来自CAMO数据集。测试图像有238张图像来自COD-10K数据集,有42张图像来自CAMO图像。
CAM-FR数据集的难度排名一共有三个级别,等级1是最难的,等级3是最简单的。
2.2 Joint localization and segmentation
我们将“discriminative region”视为伪装对象明显的区域,该区域与周围的环境有更高的对比度。基于该发现,我们设计了一个联合伪装目标定位和分割的网络,如图Figure3。
使用ResNet50作为backbone,给定输入图像I,送入backbone,在不同阶段得到特征映射S1,S2,S3和S4。
使用Fixation Decoder获得Fixation Map(即discrimination region),该结果将与ground truth进行损失计算。然后将Fixation Map送入反向关注框架。
反向关注框架有一个与ResNet50相同的网络,然后使用Camouflage Decoder得到Camouflage Map。具体的来说,令Fixation Map为F,将1-F作为注意力与S1特征相乘。然后通过Camouflage Decoder得到Camouflage Map。
解码器含有DRA和ASPP模块。我们对dual attention module(DRA)模块进行修改,以获得具有位置注意力模块(PAM)和通道注意力模块(CAM)的鉴别特征。ASPP是denseaspp module,是为了实现多尺度接收。
Fixation Map使用二进制交叉熵损失,Camouflage Map使用像素位置感知损失,以产生更高结构精度的预测。
2.3 Inferring the ranks of camouflaged objects
根据Mask RCNN构造伪装等级模型,旨在共同分割伪装对象并推断它们的等级。
使用ResNet50作为backbone进行特征提取,然后使用RPN将整个图像的特征作为输入,并检测可能包含伪装实例的区域,即ROI。RPN包含两个分支,一个是分类分支,用来确定候选边界框是否包含伪装对象;另一个是回归分支,用来得到对象的边界框。
多任务损失如下:
使用label similarity来进行约束,这个约束是当伪装等级被错误的分为3而不是真实等级1的时候,应该具有更大的损失。
如图Fig4所示,预测等级是2,ground truth等级为0,那么我们获得惩罚SP(2,0)=0.4,并将这个值乘以Lrank得到损失。