HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation
Abstract
由于GPU内存的限制,之前大多数的方法仅仅是在下采样图片上进行操作。但是下采样图片的低分辨率预测往往不能保存细粒度的细节。随机剪切一些高分辨率图片用来训练模型减轻了这个问题,但是不能够捕获大范围的,领域鲁棒的上下文信息。因此,作者提出了HRDA,应用于UDA的一种多分辨率训练方法,结合了小的高分辨率的crops的优点,来保存细粒度的分割细节,同时用大的低分辨率的crops,通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。
Introduction
低分辨率的输入难以识别小的目标主体(远处的红绿灯等)以及细粒度的分割细节(远处行人的四肢)。如果全部使用高分辨率的图片输入,将会耗费特别多的GPU内存。一个常见的做法就是用随机裁剪的图片碎片来训练模型。引入HR的目的就是适应小的主体,保护分割细节。但是HR限制了学习大范围的上下文信息,这取决于裁剪块的大小。
总结来说:HR的优点:适应小的目标主体,保护分割细节。缺陷:忽略掉了一些上下文信息,包含了一些对UDA有害的过于细节的特征。LR的优点:可以学习到丰富的上下文信息。缺陷:忽略了一些分割细节。
为了将这两种方法的优势结合起来,并且维护一个可管理的GPU内存占用,作者提出了HRDA。第一步,HRDA使用一个大的LR crops来适应大的对象,而不混淆来自特定领域的HR 纹理,并学习大范围的上下文依赖,因为我们假设HR细节对大范围的上下文依赖并不重要。第二步,使用小的HR crops来适应小的目标主体并保存分割细节,我们假设大范围上下文信息在学习分割细节中只起从属作用。HRDA使用一个输入依赖的范围注意力机制来融合两者,注意力学习决定LR和HR预测在每个图像区域的可信度。最后,为了使HRDA适应目标域,可以用多个分辨率融合的伪标签进行训练。为了进一步提高细节伪标签相对于不同上下文的鲁棒性,我们使用重叠的滑动窗口机制生成了它们。
本文贡献:
(1) 系统学习了分辨率和裁剪块的大小的影响
(2) 利用率高分辨率的输入来适应小的目标主体和细粒度的分割细节
(3) 采用一个可学习的多分辨率融合的范围注意力机制来实现object-scale-dependent adaptation
(4) 融合了大的LR crops以捕获大范围的上下文信息和小的HR crops以捕获细节,以实现内存高效的UDA训练。
Preliminary
这里的第一个参数就是指输入的原始高分辨率图片,第二个参数中
s
T
s_T
sT是指原始高分辨率图片转换为低分辨率图片后,尺寸是原来的1/
s
T
s_T
sT倍。
首先在源域数据上通过交叉熵损失训练一个模型:
这里的
q
i
,
j
q_{i,j}
qi,j表示标签的置信度,因为是源域数据,标签置信度为1。H(y)表示标签的尺寸。
仅仅在源域上训练是不够的,我们在目标域上同样进行了训练。在这里作者使用自训练的方法DAFormer来评估HRDA的效果。
首先通过教师模型的预测来得到伪标签
计算总的损失,并更新教师模型:
更多的,DAFormer使用了consistency training,网络
f
θ
f_θ
fθ在通过DACS增广的目标域数据上训练,
g
θ
g_θ
gθ使用无增广的目标域图片来生成伪标签。除了自训练之外,DAFormer使用了一个domain-augment 的Transformer网络,稀有类采样,基于ImageNet特征的特征正则化。
Methods
用大的LR context crop去学大范围的上下文依赖,用小的HR detail crop来保存分割细节。
Context and Detail Crop
这里就是将输入的图片裁剪一下,然后将裁剪下来的高分辨率图片下采样成低分辨率样本
x
c
x_c
xc
裁剪边界框
b
c
b_c
bc从图像大小内的离散均匀分布中随机采样,同时确保坐标可以分为k=s·o,o≥1表示分割网络的输出步幅,以确保在以后的融合过程中精确对齐。
对于HR crop 是在LR crop中裁剪,方法相似:
在这项工作里,作者使用的context和detail crops用的相同的维度,
h
c
h_c
hc=
h
d
h_d
hd,
w
c
w_c
wc=
w
d
w_d
wd,来平衡这两种crop所需的资源,并在上下文感知和详细的预测之间提供良好的权衡。
这里使用了特征编码器fE和一个语义解码器fS,context和detail语义分割伪标签:
Multi-Resolution Fusion
HR detail crops 适合去适应小的主体,缺少捕获大范围依赖的能力,这与LR context crop相反。我们使用注意力机制来融合HR和LR crop,来预测某个区域使用context还是detail crop的预测比较合适。
注意力机制fA学习去预测范围注意力
a
c
a_c
ac=来权衡LR上下文和HR细节预测的可信度。1代表使用HR detail crop,由于输出步幅o,预测小于输入,因此在以下步骤中相应地对crop坐标进行缩放。
通过将detail crop填充为零,将detail crop与(上采样)context crop对齐:
通过使用注意力权重和来融合多范围的预测:
编码器fE,分割头部fS,注意力头部fA通过融合的多范围预测和detail crop 预测来训练:
对于伪标签预测,作者还利用了多分辨率融合。因此,在预测伪标签时,范围注意力机制关注的是更适合的分辨率(例如,对于小物体的HR)。由于伪标签也被进一步用于训练模型与更不适合的分辨率(例如,对于小对象的LR),它提高了对小对象和大对象的鲁棒性。
Pseudo-Label Generation with Overlapping Sliding Window
作者通过教师网络来给目标域样本生成伪标签pTc,F