论文地址:https://ieeexplore.ieee.org/document/8851791
源码地址:尚未开源
1 Main Idea
首先,作者提出的方法经使用合成数据集的标注数据训练后可以检测和分割目标,然后用一个feature adaptation module来减少数据分布的不匹配问题,其中FAM分为三个层次:global-level、local-level、subtle-level(精细)。作者使用深度残差网络,以及一个RoI采样器,基于base feat map生成region proposals,为了对齐域分布,三个FAM都采用对抗训练方式进行训练。GFAM的域分类器输出2-dimension的特征向量、LFAM由一些fully-connected层组成、SFAM由三个卷积层组成,同样通过在mask特征图谱的域分类器也输出2-dimension的特征向量,输出是对于每一个实例mask,用其feat representation预测的分类概率。
2 THE PROPOSED APPROACH
2.1 Detection and Segmentaion Module
建立在Mask RCNN的基础上,学习一个two-stage模型,用源域数据生成检测和分割结果。在第一阶段,RoI sampler用来生成region proposals,通过在feat map扫描一个小网络,可以得到box分类和回归的初步结果以及;在第二阶段,对于每一个region proposal,首先提取从base feat module提取对应的feat表征,然后将它映射到固定尺寸的feat map。然后有两个输出层映射检测和分割特征,即和,再然后又有类别分类器和坐标预测器,所以总体的训练损失;
2.2 FAM
2.2.1 GFAM
Base feat map易于偏向源域(因为只有源域训练数据),分类器学习一个映射,将特征空间到,最小化:
表示输入图像是从源域中抽样而得的log-likelihood期望值,通过最小化这个损失函数,域分类器使得接近1,接近0,同时base feat module要欺骗域分类器,通过一个reverse factor(-β)来最大化损失。
2.2.2 LFAM
在RoI Sampler后得到每个region proposal的固定尺寸的feat map,然后映射到高层语义的实例feat representation,在喂进去全连接层之前获得分类的分数。目标函数如下:
R_s和r_t分别是来自源域和目标域的候选区域集。此处的域分类器给每一个候选区域生成一个常值概率,当这个候选区域是来自源域的话,这个概率就会较高,反之较低。
2.2.3 SFAM
本文涉及的方法是pixel-wise的,不但可以定位出目标,还可以精细地分割出每个实例,对齐subtle-level的表征可以帮助减少由instance mask shapes,styles以及postures导致的域漂移,因此提出一种方法辨别局部mask是属于哪一个domain的。和LFAM不同的是,RoI Sampler出来的固定尺寸feat map通过一个mask映射获得局部mask特征。Mask映射和域分类器进行对抗训练: