Cross-view regularization for domain adaptive panoptic segmentation(CVPR2021)
motivation:
全景分割将语义分割和实例分割结合起来,近年来受越来越多的关注。有一个错误的观点:简单地将语义分割域适应和实例分割语义结合就能实现全景分割,因此前人的工作要么集中在语义分割域适应要么集中在实例分割的域适应,而忽略了全景分割。然而,语义分割和实例分割的目标并不完全相同,这会导致模型从不同的角度学习到不同的特征表示。因此,忽略语义分割和实例分割的互补性独学习这两个任务然后再集成的方法是次优的。
作者观察发现:语义分割中通常被称为“stuff”的无定形区域比称为“thing”的可数对象表现得好,而实例分割的表现通常相反。因此他们设计一个inter-task regularizer来指导这两个任务互相补充和正则化,以补偿域自适应全景分割目标域没有标注的问题。除此之外,他们还设计了一个inter-style regularizer来强制模型学习到即使在不同光照、天气、对比度等等条件下都能学习到图片的几何一致性,同样能帮助解决全景分割目标域没有标注的问题。同时,他们还应用了self-training的策略来生成目标域的伪标签。
Method:
该文章的整体框架(CVRN)如上图所示,主要包括了以下两个点:
a) 利用多任务自训练(MTST),CVRN能通过使用未标记的目标图像来适应目标域的全景分割;
b) 从inter-task(ITR)和inter-style(ISR)两个角度正则化模型。
Multi-Task Self-Training(MTST):
源域图片记为以及其像素级标签为
,其中C表示的类,N表示实例的序列号;目标域的图片记为
。
a) 在源域的标签的监督下,模型可以通过语义分割的损失
和
优化:
b) 对于目标域图片,模型能够生成语义分割预测
和实例分割的预测
,在这两者的基础上,文章通过
生成伪标签(公式中的
是类均衡的权重)。按照self-training的方式,通过生成的伪标签再次训练训练模型。
Inter-Task Regualarization:
作者发现,语义分割更倾向于预测“stuff”区域而较难预测”thing“区域;相反实例分割倾向于”thing”区域,而在“stuff”区域的预测较难。因此,他们使用一个任务的高确定性(即低熵)伪标签预测来规范化另一任务的伪标签预测。如此,与仅由每个单任务预测的伪标签相比,ITR能够预测更高质量的伪标签。
首先,对于实例分割伪标签正则化函数如下:
语义分割的正则化:
其中是熵函数,
是判断实例分割预测
是否与同一图像位置中的语义分割伪标签
高度一致的函数,
是从实例分割到语义分割的标签转换函数,即忽略相同类别的实例的ID索引。
因此inter-task正则化损失定义如下:
Inter-style regularization:
加入这个模块的主要想法在于:不同条件(力图光照、天气等等)拍摄到的同一场景图像,它应该能被模型预测到相同的像素级语义。因此,可以利用具有一种特定样式的一个图像中具有较高置信度的预测来正则化另外不同样式的同一场景图片中对应像素置信度角度的预测。
因此主要思想如下:
其中
和
表示两种不同样式但同一场景下图片的模型
的预测。
因此inter-style正则化损失如下:
CVRN总体目标函数:
experiment:
ablation study: