论文笔记：Domain Adaptive Faster R-CNN for Object Detection in the Wild

最新推荐文章于 2024-05-18 09:50:40 发布

kinredon

最新推荐文章于 2024-05-18 09:50:40 发布

阅读量4k

点赞数 3

分类专栏： Domain Adaption for Object Detectio 文章标签： Domain Adaption Object Detection Faster RCNN

本文链接：https://blog.csdn.net/djh123456021/article/details/84302026

版权

Domain Adaption for Object Detectio 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文：Domain Adaptive Faster R-CNN for Object Detection in the Wild

地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_Domain_Adaptive_Faster_CVPR_2018_paper.pdf

一、简介

这篇论文发表在CVPR2018，几乎是第一篇讲无监督域适应方法应用在目标检测领域的研究，作者主要解决两个问题：

image-level shift：如光照、图片风格等
instance-level shift ：如物体外貌、大小等

通过对齐image-level 和 instance-level 特征的方式来实现无监督域适应，基于Faster RCNN实现一个end-to-end 系统。

二、方法

作者使用三个组件来解决这个问题，分别是：Instance-level domain classifier、Image-level domain classifier and consistency regularization。

Image-level Adaption

联合概率分布 $P (C, B, I)$ 可以分解为：

$\vert I) * P(I)$

这里 I 代表RCNN学习到的feature map，B，C分别表示一个物体对应的bounding boxes 和类别。

根据 Covariate Shift Assumption，条件概率 $\vert I)$ 在目标域和源域应该是一样的，所以只需要对齐 P(I) 。

Instance-level Adaption

联合概率分布 $P (C, B, I)$ 可以分解为：

$\vert B, I) * P(B, I)$

同样根据 Covariate Shift Assumption，条件概率 $\vert B, I)$ 在目标域和源域应该是一样的，所以只需要对齐 P(B, I)。又因为 $\vert I) * P(I)$ ，假设 P(I) 不变，则只需要对齐 $\vert I)$ , 其实它对应的就是bounding boxes预测器，即 Faster RCNN中的RPN(region proposal network)。

Joint Adaption (consistency regularization)

由于以下两个方面：

边缘分布 P(I) 很难完全对齐，这意味着 $\vert I)$ 的估计会有一些偏差。
bounding boxes 只有在源域有，所以使用源域数据学习出来的 $\vert I)$ 会偏向于源域。

所以条件概率 $\vert I)$ 很难完美估计。

想要对齐两个数据域，需要训练一个域分类器h(x), x 可以是image-level的表示 I 或者 instance-level级别的(B, I)。h(x) 就代表一个样本x属于目标域的概率。用 D 来代表域标签，则Image-level分类器可以表示为 $\vert I)$ ，Instance-level 可以表示为 $\vert B, I)$ , 使用贝叶斯定理可以得到：

$\vert B , I ) P ( B \vert I ) = P ( B \vert D , I ) P ( D \vert I )$

通过使得两个域分类器一致，即：

$\vert B , I ) = P ( D \vert I )$

可以使得 $\vert D, I)$ 接近 $\vert I)$

Loss function

$\lambda \left( L _ { i m g } + L _ { i n s } + L _ { c s t } \right)$

其中：

$L _ { d e t } = L _ { r p n } + L _ { r o i }$

代表Faster RCNN的loss function，分别由RPN部分和ROI pooling部分构成。值得注意的是，这两个部分都包含了两个loss项，一个是分类的预测概率，一个是bounding boxes的回归loss。更多细节可阅读 Faster RCNN

对应 Image-level Adaption 的loss为：

$\mathcal { L } _ { i m g } = - \sum _ { i , u , v } \left[ D _ { i } \log p _ { i } ^ { ( u , v ) } + \left( 1 - D _ { i } \right) \log \left( 1 - p _ { i } ^ { ( u , v ) } \right) \right]$
其中 $p _ { i } ^ { ( u , v )}$ 代表第 i 张图片在位置(u, v) 的预测结果，D代表域标签，为0表示源域，为1表示目标域。

对应 Instance-level Adaption 的loss为：

$\mathcal { L } _ { i n s } = - \sum _ { i , j } \left[ D _ { i } \log p _ { i , j } + \left( 1 - D _ { i } \right) \log \left( 1 - p _ { i , j } \right) \right]$

其中 $p _ { i ,j}$ 代表第 i 张图片的第j个instance 的预测结果。

对应 consistency regularization 的loss为：

$\sum _ { i , j } \left\| \frac { 1 } { \vert { I} \vert } \sum _ { u , v } p _ { i } ^ { ( u , v ) } - p _ { i , j } \right \| _ { 2 }$

整个方法的架构图如下图所示：

注意到在Instance/Image-level domain classifier器与Instance/Image-level representation 之间多了一个梯度反向层（GRL, gradient revere layer）, 其目的是在最小化Instance/Image-level domain classifier loss的同时，优化基础网络，即分类器要尽力的分类出特征属于哪一个域，特征抽取的基础网络需要混淆两个域的特征。

三、实验

作者把数据集SIM 10K(10k images from GTAV) 作为源域，Cityscapes(城市场景的数据集)作为目标域，得到如下结果：
在这里插入图片描述

可以看出此方法对对象检测的无监督域适应有显著的提高，作者提出的三个组件Instance-level domain classifier、Image-level domain classifier and consistency regularization 对提高模型性能都有作用。

kinredon

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
12
评论
论文笔记：Domain Adaptive Faster R-CNN for Object Detection in the Wild

论文：Domain Adaptive Faster R-CNN for Object Detection in the Wild地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_Domain_Adaptive_Faster_CVPR_2018_paper.pdf一、简介这篇论文发表在CVPR2018，几乎是第一篇讲...
复制链接

扫一扫

专栏目录