TPAMI 2024|告别手动标注!这项研究用伪影创造语义分割自动又可靠!

Feature Re-Representation and Reliable Pseudo Label Retraining for Cross-Domain Semantic Segmentation

题目:跨域语义分割的特征再表示与可靠伪标签重训练

作者:Jing Li; Kang Zhou; Shenhan Qian; Wen Li; Lixin Duan; Shenghua Gao


摘要

本文提出了一种新颖的无监督领域自适应方法,用于语义分割。我们认为,目标领域数据的良好表示应该同时保留来自源领域的知识和目标领域特定的信息。为了获取源领域的知识,我们首先学习一组基来表征源领域特征的分布,然后源域和目标域的特征都被重新表示为源基的加权和。此外引入了一个鉴别器,使得两个领域特征在相同基下的重表示责任不可区分。通过这种方式,源重表示和目标重表示之间的领域差距被最小化,重表示的目标领域特征包含了源领域的信息。然后我们将特征重表示与原始领域特定特征结合起来,用于后续的逐像素分类。为了使重表示的目标特征在语义上更有意义,我们提出了一种可靠的伪标签重训练(RPLR)策略,该策略利用通过多视源图像训练的网络的预测一致性,在未标记的目标图像上选择干净的伪标签进行重训练。广泛的实验表明,我们的方法在语义分割基准的无监督领域自适应上具有竞争力的性能。

关键词

  • 无监督领域自适应
  • 语义分割
  • 特征重表示
  • 可靠的伪标签重训练

1 引言

卷积神经网络(CNNs)[1] [2] [3] 在语义分割方面取得了巨大成功,但它们需要大量标记数据,而在新场景中注释这些数据既耗时又昂贵。为了解决这个问题,提出了无监督领域自适应(UDA),利用来自源领域的标记数据来训练一个能够很好地泛化到未标记目标领域的模型。本文专注于基于UDA的语义分割。

最近的UDA方法包括对抗性对齐方法[4],在输入级[5] [6](例如图像翻译[7])、特征级[8] [9]和输出级[10] [11],以及包括伪标签重训练[6] [12] [13]、熵最小化[14]和均值教师[15] [16]的自训练方法。对抗性对齐方法过度强制网络提取领域不变输出,但减少了领域特定变化,这可能会扭曲原始特征分布并导致负面迁移[17]。

我们主张目标特征的良好表示不仅应包含来自源领域的知识,还应保留目标领域特定的信息。为了实现这样的表示,我们通过特征重表示来解决UDA,从而在不扭曲原始特征分布的情况下获得源领域的知识。具体来说,受到潜在变量对数据分布建模[18]和特征表示方法的启发,例如稀疏表示[19]、子空间学习[20]和向量量化[21],提出了特征重表示对齐(FRA),其中使用简化的高斯混合模型[22]通过从源领域特征中学习一组基来表征源数据分布,然后源域和目标域的特征都在同一组源域基下重新表示。这样,与原始域的表示相比,两个域的重表示特征之间的差距被最小化,重表示的目标领域特征包含了源领域的知识,因为它是由源域基组成的。为了进一步对齐两个领域特征在源域基下的重表示,引入了一个鉴别器来规范每个基对重表示的责任,使得两个域的重表示不可区分。然后我们将特征重表示与原始领域特定特征结合起来,用于后续的逐像素分类。通过这种方式,通过结合源域知识和目标领域特定的原始特征,实现了更具辨别力的目标领域表示。此外,由于数据在训练阶段以小批量方式出现,因此使用指数移动平均值逐渐更新源域基。我们发现通过可视化学习到的基在语义上是有意义的,不仅对应于注释的类别,还对应于未注释的概念。其中一些是一些已知概念的组合,而其他一些甚至解耦了注释的类别。学到的基在两个领域的图像上具有相似的响应,验证了我们的重表示在跨域中的普遍性。

为了使重表示的目标特征在语义上更有意义,我们将伪标签重训练策略集成到我们的框架中。以前的伪标签重训练方法[6] [12] [13]将网络对未标记图像的预测视为高softmax概率的近似真实标签(即伪标签)。然而,已知softmax概率的排名是不可靠的[23] [24] [25] [26]。换句话说,更高的softmax概率并不一定带来正确的伪标签。为了使伪标签更可靠,我们提出了可靠的伪标签重训练(RPLR)策略来选择伪标签。通过Cycle-GAN[5] [7]翻译的源图像在纹理、照明和外观上与目标图像相似,但由于图像翻译不满意而引入了伪影,而原始源图像虽然干净但视觉差距较大。因此,这些图像可以被视为同一场景的不同视图。两个网络分别用不同源图像训练的预测一致性被用作可靠性,以选择用于重训练的伪标签。本文的贡献可以总结如下:i)我们提出了一个新框架,利用特征重表示对齐(FRA)借用源域的信息,并将其与目标领域特定特征结合起来进行语义分割。通过在共同的源域基下的重表示最小化了领域差距。提出了一种对抗性正则化,用于进一步对齐每个基对重表示的责任。ii)在我们的框架中进一步引入了可靠的伪标签重训练(RPLR)策略,以提高基于UDA的语义分割的性能。iii)广泛的实验验证了我们的方法在基于UDA的语义分割中的有效性。

3 方法

给定输入源图像 I S IS IS 带有语义标签 Y S YS YS,以及未标记的目标图像 I T IT IT 没有访问注释,UDA 的目标是通过用 I S IS IS Y S YS YS 以及 I T IT IT 训练的模型来提高目标数据集的泛化性能。我们的框架来解决 UDA 由两部分组成:i)特征重表示对齐(FRA) 获得特征重表示以最小化领域差距,并将源领域的知识与原始领域特定特征结合起来。ii)可靠的伪标签重训练(RPLR) 选择可靠的伪标签进行重训练,以使重表示的目标特征在语义上更有意义,如图 2 所示。

3.1 特征重表示对齐

如图 1 所示,我们学习一组源基,然后在共同的源域基下重新表示两个域的特征。由于两个域的重表示特征由一组共同的基组成,与原始表示相比,它们之间的差距被最小化。与对抗性对齐方法不同,后者过度强制网络提取领域不变输出,可能导致负面迁移 [17],FRA 中的重表示避免了扭曲原始特征分布;因此保留了原始领域特定特征。为了进一步对齐特征重表示,对每个基对重表示的责任应用鉴别器作为对抗性正则化。获得对齐的源特征重表示和目标特征重表示后,将特征重表示 x ^ \hat{x} x^ 视为添加到原始特征 x x x 的快捷方式。然后组合特征 x + x ^ x + \hat{x} x+x^ 用于后续的逐像素分类。由于特征重表示的对齐不是直接施加在原始特征上,原始特征未失真并包含领域特定信息。通过这种方式,构建了一个更具辨别力的特征,不仅包含源领域的知识,还包含目标领域特定信息。

3.1.1 特征重表示

我们首先介绍通过简化的高斯混合模型 [22] 进行特征重表示的一般形式。简化的高斯混合模型通过期望最大化算法 [38] 进行优化。我们将观察到的特征表示为 X X X,基表示为 m _ m m\_m m_m。给定第 k k k 个基 m _ m k m\_{mk} m_mk,第 n n n 个数据点 x _ n x\_n x_n 的特征的后验概率公式化为:

p ( x n ∣ m m k ) = exp ⁡ ( − ∥ x n − m m k ∥ 2 2 ) a p(x_n|m_{mk}) = \exp\left(-\frac{\lVert x_n - m_{mk} \rVert^2}{2}\right)^a p(xnmmk)=exp(2xnmmk2)a

其中 a a a 是预定义的常数。我们假设不同分布的混合系数相等,因此:

p ( x n ∣ m m ) = 1 K ∑ k = 1 K exp ⁡ ( − ∥ x n − m m k ∥ 2 2 ) a p(x_n|m_m) = \frac{1}{K} \sum_{k=1}^{K} \exp\left(-\frac{\lVert x_n - m_{mk} \rVert^2}{2}\right)^a p(xnmm)=K1k=1Kexp(2xnmmk2)a

以及

p ( X ∣ m m ) = ∏ n = 1 N ( 1 K ∑ k = 1 K exp ⁡ ( − ∥ x n − m m k ∥ 2 2 ) a ) p(X|m_m) = \prod_{n=1}^{N} \left(\frac{1}{K} \sum_{k=1}^{K} \exp\left(-\frac{\lVert x_n - m_{mk} \rVert^2}{2}\right)^a\right) p(Xmm)=n=1N(K1k=1Kexp(2xnmmk2)a)

我们可以轻松地获得对数似函数的对数:

ln ⁡ p ( X ∣ m m ) = ∑ n = 1 N ln ⁡ ( ∑ k = 1 K exp ⁡ ( − ∥ x n − m m k ∥ 2 2 ) a ) − N ln ⁡ K \ln p(X|m_m) = \sum_{n=1}^{N} \ln \left(\sum_{k=1}^{K} \exp\left(-\frac{\lVert x_n - m_{mk} \rVert^2}{2}\right)^a\right) - N \ln K lnp(Xmm)=n=1Nln(k=1Kexp(2xnmmk2)a)NlnK

为了最大化对数似然函数,我们选择期望最大化算法 [38] 来找到解决方案,因为将 ln ⁡ p ( X ∣ m m ) \ln p(X|m_m) lnp(Xmm) m m k m_{mk} mmk 的导数设为零并不构成封闭形式的解。

在最大化(M)步骤中,我们得到:

M k = ∑ n = 1 N g n k x n , N k = ∑ n = 1 N g n k , m m k = M k N k M_k = \sum_{n=1}^{N} g_{nk} x_n, \quad N_k = \sum_{n=1}^{N} g_{nk}, \quad m_{mk} = \frac{M_k}{N_k} Mk=n=1Ngnkxn,Nk=n=1Ngnk,mmk=NkMk

其中,基 m m k m_{mk} mmk 对重表示的责任 g n k g_{nk} gnk 在期望(E)步骤中使用当前参数评估为:

g n k = exp ⁡ ( − ∥ x n − m m k ∥ 2 2 ) a ∑ j = 1 K exp ⁡ ( − ∥ x n − m m j ∥ 2 2 ) a g_{nk} = \frac{\exp\left(-\frac{\lVert x_n - m_{mk} \rVert^2}{2}\right)^a}{\sum_{j=1}^{K} \exp\left(-\frac{\lVert x_n - m_{mj} \rVert^2}{2}\right)^a} gnk=j=1Kexp(2xnmmj2)aexp(2xnmmk2)a

m m k m_{mk} mmk 的更新可以视为根据相应的责任 g n k g_{nk} gnk x n x_n xn 的加权平均。类似地,我们将 ln ⁡ p ( X ∣ m m ) \ln p(X|m_m) lnp(Xmm) x n x_n xn 的导数设为零,以用混合模型表示数据,我们可以得到:

x ^ n = ∑ k = 1 K g n k m m k \hat{x}_n = \sum_{k=1}^{K} g_{nk} m_{mk} x^n=k=1Kgnkmmk

这可以被视为根据它们的责任 g n k g_{nk} gnk 通过估计基 m m k m_{mk} mmk 的加权和来重表示特征 x n x_n xn

3.1.2 源域基下的特征重表示对齐用于 UDA

在基于 UDA 的语义分割中,我们将源特征和目标特征表示为 X S , X T ∈ R H × W × C X_S, X_T \in \mathbb{R}^{H \times W \times C} XS,XTRH×W×C,其中 H H H W W W 是全卷积网络中几次下采样操作后的高度和宽度, C C C 是通道数。然后特征被重塑为 x S , x T x_S, x_T xS,xT,其中 x S , x T ∈ R N × C x_S, x_T \in \mathbb{R}^{N \times C} xS,xTRN×C N = H × W N = H \times W N=H×W。我们的 FRA 的说明见图 1。在 FRA 中,基仅通过源域特征学习。此外,我们随着网络训练维持基。由于一个 mini-batch 中不能观察到所有数据,我们在实现中使用指数移动平均来更新基 m m m_m mm。因此,在 E 步骤中,源特征 x S n x_S^n xSn 和目标特征 x T n x_T^n xTn 的责任 g S n k g_{Snk} gSnk g T n k g_{Tnk} gTnk 分别在 E 步骤中评估为:

g S n k = exp ⁡ ( − ∥ x S n − m m ( t − 1 ) k ∥ 2 2 ) a ∑ j = 1 K exp ⁡ ( − ∥ x S n − m m ( t − 1 ) j ∥ 2 2 ) a , g_{Snk} = \frac{\exp\left(-\frac{\lVert x_{Sn} - m_{m(t-1)k} \rVert^2}{2}\right)^a}{\sum_{j=1}^{K} \exp\left(-\frac{\lVert x_{Sn} - m_{m(t-1)j} \rVert^2}{2}\right)^a}, \quad gSnk=j=1Kexp(2xSnmm(t1)j2)aexp(2xSnmm(t1)k2)a,
g T n k = exp ⁡ ( − ∥ x T n − m m ( t − 1 ) k ∥ 2 2 ) a ∑ j = 1 K exp ⁡ ( − ∥ x T n − m m ( t − 1 ) j ∥ 2 2 ) a g_{Tnk} = \frac{\exp\left(-\frac{\lVert x_{Tn} - m_{m(t-1)k} \rVert^2}{2}\right)^a}{\sum_{j=1}^{K} \exp\left(-\frac{\lVert x_{Tn} - m_{m(t-1)j} \rVert^2}{2}\right)^a} gTnk=j=1Kexp(2xTnmm(t1)j2)aexp(2xTnmm(t1)k2)a

基在 M 步骤中更新为:

M k ( t ) = b M k ( t − 1 ) + ( 1 − b ) ∑ n = 1 N g S n k x S n , M^{(t)}_k = b M^{(t-1)}_k + (1 - b) \sum_{n=1}^{N} g_{Snk} x_{Sn}, \quad Mk(t)=bMk(t1)+(1b)n=1NgSnkxSn,
N k ( t ) = b N k ( t − 1 ) + ( 1 − b ) ∑ n = 1 N g S n k , N^{(t)}_k = b N^{(t-1)}_k + (1 - b) \sum_{n=1}^{N} g_{Snk}, \quad Nk(t)=bNk(t1)+(1b)n=1NgSnk,
m k ( t ) = M k ( t ) N k ( t ) m^{(t)}_k = \frac{M^{(t)}_k}{N^{(t)}_k} mk(t)=Nk(t)Mk(t)

其中 b b b 是一个介于 0 和 1 之间的常数,表示在一次更新中保留多少历史信息。需要注意的是,只有源特征 x S n x_{Sn} xSn 和派生的源责任 g S n k g_{Snk} gSnk 用于更新基 m m ( t ) m_m^{(t)} mm(t),因此 m m ( t ) m_m^{(t)} mm(t) 仅表征源域的特征分布。

重表示的源特征 x ^ S n \hat{x}_{Sn} x^Sn 和目标特征 x ^ T n \hat{x}_{Tn} x^Tn 重新估计为:

x ^ S n = ∑ k = 1 K g S n k m k ( t − 1 ) , x ^ T n = ∑ k = 1 K g T n k m k ( t − 1 ) \hat{x}_{Sn} = \sum_{k=1}^{K} g_{Snk} m^{(t-1)}_k, \quad \hat{x}_{Tn} = \sum_{k=1}^{K} g_{Tnk} m^{(t-1)}_k x^Sn=k=1KgSnkmk(t1),x^Tn=k=1KgTnkmk(t1)

由于源特征 x ^ S \hat{x}_S x^S 和目标特征 x ^ T \hat{x}_T x^T 都是通过相同源域基 m m m_m mm 的加权和来重表示的,重表示特征之间的差距被最小化。由于目标特征是通过源域基重表示的,源域的知识包含在目标特征重表示中。

对重表示责任的对抗性正则化:为了进一步对齐重表示的源特征和目标特征,引入了一个对抗性损失来规范责任。这种正则化的目的是通过对抗性地对齐重表示的责任。由于重表示特征是按照责任 g g g 对基 m m m_m mm 的加权求和,因此一旦责任得到规范化,源域和目标域特征的重表示将得到进一步对齐。重表示的优化目标是:

max ⁡ D E g ∼ g S [ log ⁡ D ( g ) ] + E g ∼ g T [ log ⁡ ( 1 − D ( g ) ) ] \max_D \mathbb{E}_{g \sim g_S}[\log D(g)] + \mathbb{E}_{g \sim g_T}[\log (1 - D(g))] DmaxEggS[logD(g)]+EggT[log(1D(g))]

这里, D D D 是鉴别器, g S g_S gS g T g_T gT 分别是从源特征和目标特征中得到的当前参数下的责任分布。对抗性对齐的责任对分割网络 u u u 为:

min ⁡ u E g ∼ g T [ log ⁡ ( 1 − D ( g ) ) ] \min_u \mathbb{E}_{g \sim g_T}[\log (1 - D(g))] uminEggT[log(1D(g))]

特征重表示与领域特定特征的结合。在获得对齐的源特征重表示和目标特征重表示之后,将特征重表示 x ^ \hat{x} x^ 视为添加到原始特征 x x x 上的快捷连接。然后组合特征 x + x ^ x + \hat{x} x+x^ 用于后续的逐像素分类。由于特征重表示的对齐并没有直接施加在原始特征上,原始特征保持不变,并包含领域特定信息。通过这种方式,构建了一个更具辨别力的特征,不仅包含源领域的知识,还包含目标领域的特定信息。

3.2 可靠的伪标签重训练

重表示的目标特征可能不适用于后续分类,而没有直接的监督。为了使目标特征重表示在语义上更有意义,将伪标签重训练集成到我们的框架中。我们首先回顾典型的伪标签重训练公式,然后介绍我们提出的可靠伪标签重训练(RPLR)。

3.2.1 伪标签重训练

伪标签重训练(PLR)是 UDA 中的有效方法 [6], [12], [13], [42]。现有方法依靠 softmax 概率来过滤掉嘈杂的伪标签:

y ^ n ( c ) T = { 1 , if  c = arg ⁡ max ⁡ c p n ( c ∣ u ; I T ) , p n ( c ∣ u ; I T ) > δ 0 , otherwise \hat{y}^T_{n(c)} = \begin{cases} 1, & \text{if } c = \arg\max_c p_n(c|u; I_T), p_n(c|u; I_T) > \delta \\ 0, & \text{otherwise} \end{cases} y^n(c)T={1,0,if c=argmaxcpn(cu;IT),pn(cu;IT)>δotherwise

这里, y ^ n ( c ) T \hat{y}^T_{n(c)} y^n(c)T 是目标图像 I T I_T IT 中第 n n n 个像素在类别 c c c 上的伪标签。 y ^ n T \hat{y}^T_n y^nT 根据 softmax 输出 p n ( c ∣ u ; I T ) p_n(c|u; I_T) pn(cu;IT) 对于网络参数 u u u 的最大概率是否超过固定阈值 δ \delta δ,可以是离散的 one-hot 向量或零向量。在重训练期间忽略作为 0 的伪标签。背后的假设是,具有高 softmax 概率的预测是有信心的,并且伪标签将在重训练时导致目标领域内类别的低密度分离。

3.2.2 可靠的伪标签选择

尽管 PLR 是有效的,但它依赖的 softmax 概率排名是已知的不可靠的 [23], [24], [25], [26]。具有高 softmax 概率的伪标签可能是错误的,因此生成的伪标签是嘈杂的。受 Co-training [54], [55] 和 Tri-training [56], [57] 的启发,我们提出了 RPLR,利用在多视图源数据上训练的两个网络的预测一致性来选择可靠的伪标签,如图 2 所示。在 RPLR 中,我们通过图像翻译在输入级构建多视图。图像翻译在 UDA 中常用,可以看作是输入级的领域自适应。通过 Cycle-GAN [5], [7] 翻译的源图像与目标图像在外观、纹理和照明模式上相似。然而,由于翻译不满意,引入了伪影,而原始源图像虽然干净但视觉差距较大。因此,它们可以被视为同一场景的不同视图,分别在它们上面训练的两个网络往往会有不同的表现。我们记在翻译的源图像 T ( I S ) T(IS) T(IS) 上训练的模型 M trans M_{\text{trans}} Mtrans 的参数为 u trans u_{\text{trans}} utrans,另一模型 M orig M_{\text{orig}} Morig 在原始图像 I S IS IS 上训练的参数为 u orig u_{\text{orig}} uorig。可靠的伪标签生成如下:

T ^ n ( c ) T = { 1 , if  c = arg ⁡ max ⁡ c p n ( c ∣ u ; I T ) , 1 − D J S ( p n ( I T ∣ u trans ) ∥ p n ( I T ∣ u orig ) ) > δ 0 , otherwise \hat{T}^T_{n(c)} = \begin{cases} 1, & \text{if } c = \arg\max_c p_n(c|u; I_T), 1 - DJS(p_n(I_T|u_{\text{trans}}) \| p_n(I_T|u_{\text{orig}})) > \delta \\ 0, & \text{otherwise} \end{cases} T^n(c)T={1,0,if c=argmaxcpn(cu;IT),1DJS(pn(ITutrans)pn(ITuorig))>δotherwise

这里, p n ( I T ∣ u trans ) p_n(I_T|u_{\text{trans}}) pn(ITutrans) p n ( I T ∣ u orig ) p_n(I_T|u_{\text{orig}}) pn(ITuorig) 分别是 M trans M_{\text{trans}} Mtrans M orig M_{\text{orig}} Morig 在图像 I T I_T IT 的第 n n n 个像素上的输出分布。Jensen-Shannon (JS) 散度 D J S DJS DJS 用于测量两个预测之间的一致性。我们称 1 − D J S ( p n ( I T ∣ u trans ) ∥ p n ( I T ∣ u orig ) ) 1 - DJS(p_n(I_T|u_{\text{trans}}) \| p_n(I_T|u_{\text{orig}})) 1DJS(pn(ITutrans)pn(ITuorig)) 为可靠性。如果可靠性接近 1,则预测更加一致,伪标签更可靠。我们设置阈值 δ \delta δ 来忽略具有大 JS 散度的嘈杂伪标签。重训练可以按照 bootstrapping 策略 [6], [12] 进行多轮。

4 实验

4.1 数据集

我们评估了我们提出的方法在合成到真实(synthetic-to-real)的无监督领域自适应(UDA)设置中,这意味着模型使用完全标记的合成数据集进行训练,并在未标记的真实数据集上进行评估。两个合成数据集,GTA5 [58] 和 SYNTHIA (SYNTHIA-RAND-CITYSCAPES) [59],被用作源域,真实的Cityscapes数据集 [60] 被用作目标域。GTA5数据集包含24,966帧由游戏引擎渲染的合成帧,因此相应的像素级注释很容易实现。同样,SYNTHIA数据集包含9,400张合成图像。未标记的真实Cityscapes数据集包含2,975张训练图像和500张验证图像。对于GTA5!Cityscapes,我们使用与Cityscapes数据集全部33个类别中共同的19个类别来训练网络,遵循 [8] 的方法。对于SYNTHIA!Cityscapes,我们使用16个共同类别来训练网络。按照之前的作品 [12],我们在16个类别上评估平均性能,并在排除3个最差表现类别的情况下,也提供了13个类别的平均性能。平均交并比(mean-Intersection-over-Union,mIoU)度量被用作测量标准。

4.2 实现细节

架构设计

我们使用了带有ResNet101 [61]的DeepLab-V2 [3]和带有VGG16 [62]的FCN-8s [1]。鉴别器与 [10] 类似,但我们改变了前三个体素卷积层的步长为1,以适应下采样特征图的大小。基的数量设置为64。

训练策略

DeepLab使用SGD优化器进行训练,初始学习率为2.5e-4,并根据 [3] 使用多项式调度衰减。对抗性正则化的权重为0.01。为了使用vgg16训练FCN-8s,我们使用ADAM优化器,初始学习率为1e-5,每50,000步减少0.1。对抗性正则化的权重为0.001。图像被调整大小为GTA5数据集的1280x720像素,SYNTHIA数据集的1280x760像素,以及Cityscapes数据集的1024x512像素。对于GTA5!Cityscapes,最大迭代次数为250,000次,并在150,000步提前停止,SYNTHIA!Cityscapes的最大迭代次数为90,000。为了在GTA5上生成伪标签,我们在第一轮训练网络120,000步,在第二轮训练80,000步。在SYNTHIA上生成伪标签的网络训练为60,000步。所有实验都在配备12GB NVIDIA TITAN V GPU的单个设备上进行,批量大小为1。鉴别器使用最小二乘目标 [63] 进行优化。

图像翻译的实现

为了将源图像翻译成类似目标的样式,我们遵循 [5],[7] 使用CycleGAN。图像的宽度被调整到1024像素,并保持纵横比。裁剪出400x400的图像块,用20个周期训练网络。前10个周期的学习率为2e-4,并在其余周期线性减少到0。

可靠的伪标签重新训练

我们手动为JS散度设置了阈值d,以便70%的数据集伪标签被选为在RPLR中重新训练网络。

4.3 与最先进技术的比较

表1显示了与其他最先进方法在GTA5!Cityscapes上的比较。在ResNet101主干上,我们实现了50.1%的mIoU,这比最近使用对抗性训练和伪标签重新训练的方法,如BDL [6]、IDA [44]和DTST [49]更好。在VGG16主干上也获得了最先进的结果(43.1% mIoU)。同样,在表2中显示的SYNTHIA!Cityscapes上,无论在16个类别还是13个类别的评估上,也都获得了最先进的结果。


4.4 消融研究

在这里我们仔细研究了我们提出方法中不同组件的效果。本小节中的实验都是在GTA5!Cityscapes上使用DeepLab-v2[3]和ResNet101主干进行的。

框架的消融研究

与仅使用源数据训练的模型相比,FRA在mIoU上实现了7%的改进。这一结果表明,源域基的特征重表示实际上最小化了领域差距,特征重表示和原始目标领域特定信息的结合产生了良好的目标表示。为了可视化,我们使用t-SNE [64]将高维特征投影到二维空间。在图4中,可以看到通过FRA,不同类别的嵌入具有更清晰的分离,源域和目标域中相同类别的嵌入差异减少了。在图像翻译(IT)[5],[7]的翻译源图像上训练FRA模型获得了小幅改进。对于RPLR,Morig对应于FRA,Mtrans对应于FRA + IT。通过使用RPLR选择的伪标签进一步在翻译源图像上训练模型,mIoU上升到49.7%,显示了RPLR的有效性。第二轮重新训练后的最终mIoU达到50.1%。不同组件的分割结果可视化可以在图3中看到。


FRA组件

FRA由两个组件组成:特征重表示和对抗性对责任的对齐。如表4所示,基线模型仅在源数据上训练。需要注意的是,特征重表示在mIoU上比未适应的基线提高了5.5%。对抗性规则对责任也通过6.7%的性能提升。我们的FRA结合这两个模块进一步将性能提高到44.8%的mIoU,这表明它们是互补的。此外,将特征重表示和原始领域特定特征结合起来的快捷连接是FRA中不可或缺的组件。如果不结合原始领域特定特征,性能将显著下降。我们认为重表示可能提供了不同领域的共同知识,缺乏领域特定信息。因此,原始未失真的领域特定特征是一个补充,快捷连接被采用为我们提出的FRA中的关键组件。

FRA中基的可视化

为了揭示基学习了什么,我们可视化了与一些采样基相对应的责任。在图5中,我们可以发现我们学习到的基是语义上有意义的。图5a中的基关注自行车和汽车轮子。图5b中的基关注汽车后部。图5c中的基关注树枝和树叶。图5d中的基关注树干。图5e中的基关注交通灯。图5f中的基关注建筑。图5g中的基关注路边。图5h中的基关注杆和直细树。不同的基负责场景的不同部分。有趣的是,一些基表示一些现有概念的组合,例如图5a中的基是自行车和汽车轮子的组合;而一些基将注释为整个植被的数据集中的树概念拆分为树枝和树叶,如图5c和5d所示。图5g中的路边也是一个未注释的概念。需要注意的是,我们学习到的基在源图像和目标图像上具有相似的响应,这验证了我们的重表示在不同领域之间的普适性。

FRA中基的更新

在特征重表示中,有五种选择用于更新基,如表5所示。使用源特征更新的FRA如等式(5)所述,实现了最佳性能,而使用目标特征更新的FRA性能最差。此外,使用源特征和目标特征一起更新的FRA也比仅使用目标特征的FRA更好,但与随机初始化后不更新的基线相当。我们推测的原因是,没有监督的目标特征可能无法执行有意义的表示,因此缺乏区分能力。将基视为可训练参数并通过反向传播更新也会导致1.0% mIoU的下降。结果表明,在UDA中,表征源领域特征分布的基在重表示中最为有益。

FRA中基数量的影响

FRA中的基数量是一个需要调整的超参数。表6中的结果显示,64个基对特征重表示足够,并且实现了最佳结果。当将基的数量增加到512时,mIoU下降到41.7,这接近于当基的数量为64且没有对抗性损失时的性能,即42.3%。我们进一步可视化了学习到的基,并发现许多基对源图像和目标图像都有零响应。我们推测的原因是:由于基的空责任不能判断输入是来自源域还是目标域,任务网络倾向于生成零响应的基,因此容易欺骗鉴别器。当基的数量很大时,任务损失仍然可以被最小化,只有少数有效的基。因此,当基的数量很大时,对抗性损失可能无法为任务网络提供有效的监督并降低性能。

FRA中α的影响

在特征重表示对齐(Feature Re-representation Alignment,简称FRA)中,α值是一个需要调整的超参数。在期望(E)步骤中,使用如下公式评估系数 g g g

g n k = exp ⁡ ( − α ∥ x n − m m k ∥ 2 ) ∑ j = 1 K exp ⁡ ( − α ∥ x n − m m j ∥ 2 ) g_{nk} = \frac{\exp(-\alpha \|x_n - m_{mk}\|^2)}{\sum_{j=1}^{K}\exp(-\alpha \|x_n - m_{mj}\|^2)} gnk=j=1Kexp(αxnmmj2)exp(αxnmmk2)

如果将α设置得足够大, g g g会变成一个一位有效数(one-hot vector),这意味着最终重表示的 x x x仅由一个基 m m k m_{mk} mmk贡献,同时在公式(5)中,基 m m k m_{mk} mmk也仅根据 x n x_n xn更新。相反,如果α设置为零, g g g会变成一个均匀分布的向量,表示所有 x x x的最终重表示是基的均值,基也以 x x x的均值等同更新。在表7中,我们可以看到,α过小或过大都不会带来好的表现。将α设置为7.5时得到最佳结果,这意味着一个好的重表示应该利用多个不同的基。表7中的实验结果表明,不同的α值对FRA性能有显著影响。当α设置为7.5时,模型达到了最高的mIoU值44.8%。这表明,为了实现有效的重表示,需要平衡不同基的贡献,而不是仅依赖单一基或均匀地使用所有基。

FRA 中指数移动平均的 β \beta β 的影响

在主要论文中,公式 (11) 中的常数 β \beta β 是指数移动平均中的一个重要超参数,它指示在训练过程中应保留多少历史信息。表 8 的结果验证了,较大的 β \beta β 值会使基累积过多的历史信息,从而导致训练期间优化的困难。另一方面,较小的 β \beta β 值快速更新会很快忘记历史信息,导致对整个数据集的统计估计不准确。为了在这两者之间取得折衷,我们最终将 β \beta β 设置为 0.9。

与其他对抗性对齐方法的比较

FRA提出通过对抗性地对齐重表示的责任来实现领域对齐。为了与其它对抗性对齐方法进行比较,我们重新实现了文献[10]中的输出级对齐和特征级对齐。值得注意的是,我们在FRA中使用了具有相同下采样步长的鉴别器。此外,我们训练鉴别器时采用了不同的优化目标,即传统的二元交叉熵损失和最小二乘损失[10],[63]。与输出级对齐和特征级对齐相比,FRA在表9中通过最小二乘损失或普通的二值交叉熵损失获得了最好的结果。无论是使用哪种损失函数,FRA都实现了比其他方法更好的结果。使用最小二乘损失的比较可视化结果可以在图3中看到。我们还与类别级对齐方法进行了比较,即语义级可分离鉴别器(Semantic-wise Separable Discriminator, 简称SS-D)[47]和类别级对齐[53]。SS-D的结果是根据[47]调整的。对于类别级对齐,我们重新实现了它,并报告了在没有伪标签或弱标签监督下的性能。可以看出,我们FRA的性能仍然优于其他方法。我们尝试将我们的FRA与输出级对齐结合起来。然而,性能下降了。原因可能是同时优化两种不同的对抗性任务很困难。

RPLR 对比 PLR

在图6中,我们将RPLR与PLR进行了比较。在训练了基线模型FRA + IT之后,我们根据softmax概率和JS散度,将整个数据集的伪标签从低到高进行排序。然后我们手动设置阈值d,以获得不同比例的来自整个数据集的可信伪标签,用于在翻译的源图像上重新训练模型,得出了重新训练的模型FRA + IT和FRA + IT + RPLR。在图6中,大量伪标签对获得更好的结果很有用。RPLR总是优于伪标签重新训练。我们推测,性能提升来自于忽略了不正确的伪标签,这些伪标签约占全部伪标签的30%。当增加所选伪标签的比例超过70%时,引入了不正确的标签,从而降低了性能。然而,在PLR中,不正确的伪标签并没有被softmax概率忽略。因此,即使在重新训练中只选择了一小部分具有高softmax概率的伪标签,不正确的伪标签也已经被包含在训练中,导致与RPLR相比性能较低。随着引入更多具有低softmax概率但正确的伪标签,PLR在增加重新训练的比例时性能有所提升。可视化结果可以在图2中看到。在图7中,可以看到我们生成的可靠伪标签忽略了相对可靠性较低的不正确区域,而这些在具有相对高softmax概率的伪标签中被保留。同时,一些被网络正确预测但具有相对较低softmax概率的区域在伪标签中被忽略,而在我们的可靠伪标签中,由于相对较高的可靠性,这些区域被保留。使用RPLR与PLR相比的分割结果可视化可以在图3中找到。我们还尝试在每个图像中选择相同比例的伪标签,但与在整个数据集中选择伪标签的比例相比,性能有所下降。原因可能是在这种选择策略中,一些信心较少的像素被选中了。


从RPLR中的多视图数据中获得的性能收益

在RPLR中,成功的关键因素是使两个网络不同,因此一致性可以用作伪标签选择的可靠性。在RPLR中使网络不同的两个因素是训练中使用的多视图源数据和不同的随机初始化。我们在这里进行实验,以了解多视图数据在RPLR中的性能提升。在图6中,FRA + IT + RPLR (w/o multi-view)表示我们训练了另一个网络M0trans,它与Mtrans在初始化上不同,也使用翻译的目标样图像,并且使用Mtrans和M0trans而不是Morig来计算等式(14)中的可靠性,以选择伪标签。值得注意的是,伪标签是从Mtrans的相同预测生成的,但采用不同的策略被忽略。RPLR与RPLR (w/o multi-view)之间的比较表明,性能提升主要来自作为源输入的多视图数据,这使得两个网络不同。

RPLR与P-Model和Mean Teacher的比较

我们的RPLR与P-Model和Mean Teacher相似,在半监督学习领域利用预测的一致性。不同之处在于,在半监督学习领域的P-Model和Mean Teacher中,诸如颜色抖动和高斯噪声等扰动被添加到未标记的目标图像上。而在我们的方法中,我们不改变未标记的目标图像,而是用不同的源图像来给网络输入。此外,在P-Model和Mean Teacher中添加的诸如颜色抖动和高斯噪声等扰动是随机的,与领域无关。而在RPLR中,Cycle-GAN将源图像翻译成目标样的,因此最小化了领域差距。我们在提出的FRA上实现了Mean Teacher和P-Model,并使用了不同的扰动。对于颜色抖动,我们随机改变了原始图像的亮度、对比度和饱和度的80%到120%,色相变化从-5%到5%。对于高斯噪声,设置标准差σ为0.1,在图像归一化后添加噪声。表11中的结果显示,简单地添加诸如颜色抖动和高斯噪声等扰动在Mean Teacher和P-Model中有时甚至损害性能。原因可能是扰动是随机的,与领域无关,这并没有最小化领域差距,使模型难以在未扰动的目标图像上泛化。我们的RPLR实现了比Mean Teacher和P-Model更好的性能,因为Cycle-GAN将图像从源域翻译到目标域,并且没有在目标图像上添加扰动。

计算效率

我们还分析了带有FRA的网络的计算成本。输入大小为1,024x512。如表10所示,我们提出的FRA在参数数量、浮点运算次数和推理时间上对DeepLab-V2 [3]的增加不到5%。对于FCN-8s [1],FRA仅增加了3%的参数、0.5%的浮点运算次数和1%的推理时间。这表明FRA是轻量级且快速的。

5 结论

在本项工作中,我们提出了一种新颖的无监督领域自适应方法,用于语义分割。特征重表示对齐(Feature Re-representation Alignment,简称FRA)通过源域基的特征重表示来提供知识,避免了原始特征分布的扭曲。通过结合重表示的特征和原始的目标领域特定特征,实现了对目标数据的良好表示。由于两个领域的特征都在同一组源域基下重表示,它们之间的差距被最小化。进一步引入了对抗性正则化来对齐重表示的责任,以使重表示的特征更加语义化。我们的方法在缩小领域差距方面取得了竞争性的性能,证明了其成功。

  • 16
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SSIM损失是结构相似性损失的缩写,它在语义分割中被广泛使用。SSIM损失是一种用于衡量生成的图像与原始图像之间结构相似性的指标。它通过比较图像的亮度、对比度和结构来评估它们之间的相似性。SSIM损失可以确保生成的重新照明图像在保持原始图像结构的同时进行重照明。\[3\] 在SSIM损失中,使用了一个简化的SSIM指标和一个3×3的块滤波器。该损失函数的定义如下: Lssim = 1 - SSIM(R, I) 其中,R是重新照明图像,I是输入图像。SSIM函数用于计算两个图像之间的结构相似性指数。通过最小化SSIM损失,可以确保生成的图像能够保持原始图像的结构。\[3\] 总结起来,SSIM损失是一种用于衡量生成图像与原始图像之间结构相似性的损失函数,在语义分割中被广泛应用。它可以帮助生成的图像保持原始图像的结构特征。 #### 引用[.reference_title] - *1* [语义分割loss汇总](https://blog.csdn.net/frighting_ing/article/details/123363738)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [python工具方法 33 基于lossFusion类实现多个loss的集成](https://blog.csdn.net/a486259/article/details/125956395)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [TPAMI2021语义分割/领域自适应-Domain Adaptation Network with Image Alignment for Unsupervised ...](https://blog.csdn.net/ssshyeong/article/details/124221158)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值