论文阅读《Cross-domain Detection via Graph-induced Prototype Alignment》-CSDN博客

本文链接：https://blog.csdn.net/jolin_ln/article/details/120181229

论文阅读《Cross-domain Detection via Graph-induced Prototype Alignment》

问题：领域自适应问题。将在特定领域训练好的检测器应用到新的领域是有风险的，由于两个领域之间存在差距，比如背景、天气、光照等在不同地点都是不同的，会使得模型的性能下降。还有就是场景中不同的目标的模态信息是不同的（在不同角度下的汽车会呈现出不同的形态），所以作者认为源域和目标域的特征对齐是难以实现的。

解决方法：作者提出了一个图诱导原型对齐（GPA）框架，通过精细的原型表示来寻求类别级领域对齐。
简单的说：1. 区域提议之间以图的信息传播，获得更精细的实例级（目标本身）特征，然后在这个基础上派生出每个类的原型表示，实现类级域对齐。（这部分个人认为是解决目标的多模态问题，获得每个类的原型表示，那么在不同形态下的目标模型就能将其理解为同一个目标了）
2. 缓解类别不平衡对领域适应的影响，作者通过设计一个类别重加权对比损失来协调适应训练过程。（这个部分作者主要是受Facal Lossq启发，利用对比损失通常用于连体网络结构，以提高类内的紧凑性和类间的可分离性的特性，提出了类别重加权对比损失。）

总体框架：

在这里插入图片描述
模型结构主要分为5个部分：

基于Faster R-CNN得到区域提议（也就是可能包含目标的边框集合）
根据1得到的区域提议来构造关系图
在属于同一实例的建议之间以图的信息传播，来获得更准确的实例级特征表示。
每个类的原型表示通过置信度引导的合并获得
增强类内紧凑型和类间可分离性来执行类级域对齐

其他描述：基于Faster R-CNN，引入基于图的区域聚合和置信度引导的合并。1. 基于图的区域聚合：通过构造一个区域提议位置和大小的关系图来聚合实例级的特征，从而集成每个实例的关键特征。2. 置信度引导的合并：不同实例中包含的多模态信息通过原型表示来体现，通过利用多模态信息的互补性，可以更好地表征每个类别。
基于Faster R-CNN的两阶段结构，作者也采用了两阶段的方式进行特征对齐：1）将前景与背景分布分离，对两个域的特征进行类未知分布；2）对每个前景类别分别进行更细粒度的对比。
（以上5个步骤，3，4，5目前还不明白，继续往下看）

具体方法：

Graph-induced原型对齐
1）产生区域提议：有Faster R-CNN中的RPN生成，用来描述前景和背景。这些虽然提供了各种实例模式和场景的丰富信息，但是由于边界框的差异，往往包含不完整的实例信息。所以我们的目标时在区域建议中提取每个实例的确切信息。
2）构建关系图：将RPN产生的区域提议构造为图G=（V,E），其中V表示Np建议对应的顶点集，E∈V × V表示边集，也就是各区域提议之间的关系。用邻接矩阵 $A\in \mathbb{R}^{N_{p}\times N_{p}}$ 来描述这种关系。作者认为两个空间上更接近的提议更可能描述同一对象，因此应该分配更高的连接权重。所以获得邻接矩阵的一种方法是在两个提议的中心之间的欧氏距离上应用高斯核：

其中oi和oj表示第i和第j个提案的中心(1 ≤ i, j ≤ Np)， σ是控制A稀疏性的标准差参数。

如下图所示，两边的区域提议中心距离虽然相等，但是关联强度明显不同，所以不同空间大小的提议不能同等对待，关联强的在A中应该有较高的连接权重，所以（a）的权重应该较（b）的高。

考虑了这一点，作者根据IoU推导出IoU邻接矩阵公式：

3）基于区域聚集：由于边界框存在误差，区域提议往往分布在ground-trutu对象周围，所以单一提议表示对象的精确性不高，也就是说候选框在标注框周围，它所得到的对象的信息是不完全的（可能只包含一部分对象）。所以作者为了实现精确的实例级特征表示，属于某个实例的提议的嵌入应该被聚集起来（这句话不是很理解）。利用邻接矩阵A提供的空间相关性，将提出的特征嵌入 $A\in \mathbb{R}^{N_{p}\times d}$ 和分类置信 $P\in \mathbb{R}^{N_{p}\times N_{c}}$ （d为嵌入维数，Nc为类数）聚合为：

查到的一些小知识（辅助文章理解）：
特征嵌入：将数据转换（降维）为固定大小的特征表示（矢量），以便于处理和计算（如求距离）。例如，针对用于说话者识别的语音信号训练的模型可以允许您将语音片段转换为数字向量，使得来自相同说话者的另一片段与原始向量具有小的距离（例如，欧几里德距离）。
嵌入：embedding的主要目的是对（稀疏）特征进行降维，它降维的方式可以类比为一个全连接层（没有**函数），通过 embedding 层的权重矩阵计算来降低维度。

4）Confidence-guided合并：特征表示已经在实例级聚合，所以接下来要将不同实例所反映的多模态信息集成到原型表示中，为了突出对特定类别至关重要的模态信息，在合并过程中，作者将每个类别的提案置信度作为权重，并导出原型作为区域提案的加权平均嵌入：

其中ck∈Rd表示类k的原型，派生的原型在后续的域对齐过程中作为每个类的代理。
5）类别级别的领域对齐：作者发现基于原型的域对齐也有不少方法，这些方法的核心思想是缩小两个领域中相同类别的原型之间的距离，通过最小化一个类内损失，即Lintra。此外，作者建议不同类别的原型之间的距离也应该受到另一个类间损失的约束，记为Linter。此外，考虑到存在着类的不平衡，不同类的影响需要进行调整。
Class-imbalance-aware适应训练
目标检测中普遍存在类不平衡问题，作者受Focal Loss的启发，希望在领域适应的训练过程中未样本稀少的类别分配更多的权重。早期具有丰富样本的类别训练得更充分，与样本稀少的类别相比，它们应该拥有更高的置信度。所以作者在一组建议中选择一个特定类别的最高置信度，并采用这种置信度值来计算这个类别的权重。

其中pk是在Np提案中k类的最置信度，而γ是控制不同类别之间权重的参数。硬阈值1/Nc，用来过滤掉那些样本不包括在建议集中的类。

作者基于对比损失提出类重加权的对比损失来进行类别层面的领域对齐，在这个损失函数中，类内部分要求相同类别的原型尽可能接近，而类间部分则限制了不同类的原型之间的距离要大于一个边际（某个阈值？）。
两级域对齐
基于Faster R-CNN的总损失：

作者采用的两阶段域对齐方式：在第一阶段，利用RPN产生的区域建议和相应的类别诊断置信度，在潜在空间上分离出前景和背景特征，并且前景特征分布作为一个整体被对齐。在第二阶段，通过利用更精确的边界框和每个类别的置信度框，每个类别的特征分布被分别对齐。在RPN和RCNN中应用所提出的类别加权对比损失，总损失为：

其中Fθ代表整个参数化模型，而λ1和λ2是检测和域适应损失之间的权衡参数。