北大研究团队提出凸面镜反射场景语义分割UDA，超越基线10个点！

本文链接：https://blog.csdn.net/u013517182/article/details/127390831

北大研究团队提出凸面镜反射场景语义分割UDA，超越基线10个点！

最近，来自北京大学的研究团队提出凸面镜反射场景无监督域适应语义分割算法《Unsupervised Domain Adaptation for Semantic Segmentation of Urban Street Scenes Reflected by Convex Mirrors》，该工作也是目前学术界内第一篇有关凸面镜场景理解的工作，发表在IEEE Transactions on Intelligent Transportation Systems (T-ITS)上，作者单位为北京大学智能学院。文章传送门：https://ieeexplore.ieee.org/document/9903282

关键词

畸变，凸面镜，语义分割，无监督域适应

研究背景

凸面镜由于可以提供大的视野，常常被用在街道拐角处或被用作汽车的乘客侧后视镜。通过反射视野盲区，凸面镜可以为行人和司机提供安全保障。

近年来，随着自动驾驶和智能交通的快速发展，如何智能地理解凸面镜反射的场景是一个重要的问题。然而CNN在语义分割方面取得了巨大的成就主要归功于利用大量标注数据的监督学习，然而人类在像素级的标注上所花费的时间和精力是巨大的。无监督领域适应方法（UDA）旨在将知识从标签丰富的源域转移到标签稀少的目标域，从而减少源域和目标域之间的域差距。然而，已有方法重在缓解由渲染图像和真实图像或不同城市之间的风格带来的领域差异。对于正常图像和凸面镜反射图像而言，他们的差异主要体现在几何外观上，即凸面镜反射图像具有较大的畸变，而正常图像则没有。因此，以前的主要解决由风格差异带来域差异的无监督域适应方法，并不完全适用于解决由几何外观不同所带来的域差异。

北京大学的研究人员提出了一个框架，以缓解正常和凸面镜反射图像之间的几何域差异。他们根据凸面镜反射图像的变形特性对其进行几何建模，并提出了一个在线可微分凸面镜模拟网络层（Convex Mirror Simulation Layer，CMSL)。在CMSL的帮助下，分别对输入空间的低级边缘和输出空间的高级语义边界进行对抗性领域适应，以减少合成图像和真实图像之间的几何外观差距。为了便于研究凸面镜反射图像的语义分割，作者在北京大学校园内采集数据，并贡献了一个数据集 Convex Mirror Reflection Dataset (CMR1K)。CMR1K包含268张带有密集像素级语义注释的图像。实验结果表明，作者的方法在不同的源域和不同的骨干网络上都优于基线和以前的UDA方法。

凸面镜反射模拟层的建立

本节阐述了提出的凸面镜模拟层。作者观察到，在用凸面镜反射的场景中存在两种畸变。一种是由凸面反射面引起的径向畸变，另一种是由凸面镜的倾斜引起的透视畸变。为了模拟这两种类型的畸变，他们首先对正常图像进行径向畸变。

图2 用不同的k得到的具有不同程度变形的图像。 k的绝对值越高，图像中的径向畸变就越强

之后再进行透视畸变变换。

最后进行对齐的操作

凸面镜反射场景的无监督预适应语义分割

图5 北大研究人员针对凸面镜无监督域适应语义分割问题提出的算法框架

北京大学研究人员提出的凸面镜反射场景无监督域适应语义分割框架如上图所示。令 $\mathbb{D}_{s}= \{(I_s, y_s)\}$ 表示带标签的源域样本， $\mathbb{D}_{t}= \{I_t\}$ 表示未标注的目标域凸面镜样本。首先使用设计的变形估计器 $\mathbf{F}$ 估计 $I_t$ 中潜在的畸变参数 $p=[\alpha, \beta, k, d]$ ，上述过程可表示为 $\mathbf{F}(I_t)$ 。然后将估计的 $p$ 和 $I_s$ 输入设计的凸面镜模拟网络层 $\mathbf{M}$ ，合成的凸面镜反射图像 $I_s^{\prime}$ 可以通过 $I_s^{\prime}=\mathbf{M}(\mathbf{F}(I_t), I_s)$ 得到，同样可以得到变形的标签 $y_s^{\prime}=\mathbf{M}(\mathbf{F}(I_t), y_s)$ 。之后， $I_s^{\prime}$ 和 $I_t$ 被送入分割网络 $\mathbf{G}$ ，得到分割结果 $\hat{y}_s^{\prime}$ 和 $\hat{y}_t$ 。对于 $I_s^{\prime}$ ，网络可以通过监督学习进行训练。假设网络对 $I_s^{\prime}$ 分割结果的Softmax输出为 $\boldsymbol{P}_{I_s^{\prime}}=\mathbf{G}(I_s^\prime)\subset \mathbb{R}^{H \times W \times K}$ ，其中 $H\times W$ 和 $K$ 表示输出尺寸和类别数目，源域上的监督损失可以表示为：
$\mathcal{L}_{sup}(I_s^\prime, y_s^\prime) = -\sum_{h=1}^{H} \sum_{w=1}^{W} \sum_{k=1}^{K} \boldsymbol{y}_{s}^{\prime} \log \boldsymbol{P}_{{I}_{s}^{\prime}},\tag{34}\\$
其中， $\boldsymbol{y}_{s}^{\prime}$ 是 ${y}_{s}^{\prime}$ 的独热（One-hot）编码。由于 $I_t$ 没有相应的标签，为了减少域之间的差异，优化目标是使合成图像在几何外观上更接近真实图像，即让变形估计器能够获得目标域凸面镜图像 $I_t$ 的潜在畸变参数。在此基础上，分别对输入图像的边缘和分割结果的语义边界进行对抗学习。此外，熵值最小化和基于颜色的风格转换技术也被进一步用于减少由风格引起的域差异。

边缘上的对抗学习

为了使合成图像在几何外观上接近真实图像，一个直观的想法是使用判别器对输入空间中的合成图像和真实图像进行对抗学习。然而，在这种情况下，判别器可能只关注内容信息，而忽略了更重要的几何信息。为了解决这个问题，本章对输入图像进行边缘提取，并对提取的边缘图进行判别。边缘提取可以描述为：
${\zeta}_I=\frac{1}{\sqrt{2}}\|\nabla G * \boldsymbol{I}\|,\tag{35}\\$
其中 $\zeta_I$ 是输出边缘图， $G$ 表示高斯滤波器。操作 $\nabla G *$ 可以通过Sobel算子实现。通过构建一个参数为 $\theta_{D_{geo}}$ 的全卷积判别器网络 $\mathbf{D}_{geo}$ ，并将 ${\zeta}_I$ 作为输入，产生域分类输出，即源域的类标签为1，目标域的类标签为0。然后训练判别器判别输入来自源域还是目标域，同时训练变形估计器欺骗判别器。
假设二值交叉熵分类损失 $\mathcal{L}_{bce}$ 被定义为：
$\mathcal{L}_{bce}(\boldsymbol{O}, z) = -\sum\limits_{h}^{H^{\prime}}\sum\limits_{w}^{W^{\prime}}(1-z) \log (1-\boldsymbol{O}) +z \log (\boldsymbol{O}),\tag{36}\\$
其中 $\boldsymbol{O}$ 是概率图，并且 $\boldsymbol{O} \subset \mathbb{R}^{H^{\prime} \times W^{\prime}}$ 。判别器的训练损失为：
$\mathcal{L}_{\mathbf{D}_{geo}} = \mathcal{L}_{bce}(\mathbf{D}_{geo}({\zeta}_{I_s^\prime}), 1)+\mathcal{L}_{bce}(\mathbf{D}_{geo}({\zeta}_{I_t}), 0).\tag{37}\\$
训练变形估计器的对抗损失为：
$\mathcal{L}_{geo}=\mathcal{L}_{bce}(\mathbf{D}_{geo}({\zeta}_{I_s^\prime}), 0).\tag{38}\\$
式37的原理是训练判别器 $\mathbf{D}_{geo}$ ，使其能够检测出凸面镜反射图像是合成数据还是真实数据，而式38则优化变形估计器 $\mathbf{F}$ ，使利用其输出的参数合成的图像能够欺骗判别器。在这种对抗学习方法中，原始图像可以用来合成与凸面镜图像相似的图像，从而减少几何域差异。

在语义边界上对抗学习

与从原始图像中提取的边缘图相比，语义边界的边缘更加清晰。这些清晰的边缘具有强烈的几何信息，对于指导变形估计器预测畸变参数有着重要的作用。在此基础上，本章从分割结果中提取语义边界并对其进行判别。语义边界可以表示为：
$\zeta_{P_{I}}=\frac{1}{\sqrt{2}}\|\nabla G * \underset{k}{\arg \max } \boldsymbol{P}_{I}\|.\tag{39}\\$
假设用于判别语义边界的判别器是 $\mathbf{D}_{sem}$ ，与式37和式38相似， $\mathbf{D}_{sem}$ 的损失可以表示为：
$\mathcal{L}_{\mathbf{D}_{sem}} = \mathcal{L}_{bce}(\mathbf{D}_{sem}({\zeta}_{P_{I_s^\prime}}), 1)+\mathcal{L}_{bce}(\mathbf{D}_{sem}({\zeta}_{P_{I_t}}), 0).\tag{40}\\$
对应的变形估计器的损失为：

$\mathcal{L}_{sem}=\mathcal{L}_{bce}(\mathbf{D}_{sem}({\zeta}_{P_{I_s^\prime}}), 0).\tag{41}\\$
为了通过式41进行反向传播，需要计算式39的梯度。令 $g=\|.\|$ ，对给定参数 $\eta$ 的偏导数可以通过下式计算：
$\frac{\partial \mathcal{L}}{\partial \eta}=\nabla G * \frac{\partial \mathcal{L}}{\partial \zeta_{P_I}} \frac{\partial \zeta_{P_I}}{\partial g} \frac{\partial \arg \max _{k} \boldsymbol{P}_I}{\partial \eta}.\tag{42}\\$
由于 $\arg \max$ 是一个不可微的函数，本章使用Gumbel-Softmax技巧\supercite{jang2016categorical}解决梯度无法回传的问题。在梯度回传过程中，用温度为 $\tau$ 的Softmax函数对 $\arg \max$ 算子近似，可以得到：
$\frac{\partial \arg \max _{k} \boldsymbol{P}}{\partial \eta}=\nabla_{\eta} \frac{\exp \left(\left(\log \boldsymbol{P}+{G}\right) / \tau\right)}{\sum_{k} \exp \left(\left(\log \boldsymbol{P}+{G}\right) / \tau\right)},\tag{43}\\$
其中 $G\sim$ Gumbel (0,1)， $\tau$ 是一个超参数。结合式38和式41，变形估计器总的损失为：
$\mathcal{L}_{pose} = \mathcal{L}_{geo} + \lambda_{sem} \mathcal{L}_{sem},\tag{44}\\$

最小化加权自信息

熵最小化方法旨在将目标输出概率图的熵最小化，通过模仿源域预测的过度自信行为减少域差异。引入熵最小化技术另一个目的是减少目标分割结果的离散化，从而提取清晰的语义边界，以便于对其进行对抗学习。事实上，AdvEnt提出了一种间接的基于加权自信息的对齐方法。加权的自信息被定义为：
$\boldsymbol{E}_{\boldsymbol{I}}=-\boldsymbol{P}_{\boldsymbol{I}} \cdot \log \boldsymbol{P}_{\boldsymbol{I}}.\tag{45}\\$
假设用于判别加权自信息的判别器是 $\mathbf{D}_{ent}$ ， $\mathbf{D}_{ent}$ 的损失函数可以通过以下方式得到：
$\mathcal{L}_{\mathbf{D}_{ent}} = \mathcal{L}_{bce}(\mathbf{D}_{ent}(\boldsymbol{E}_{\boldsymbol{I}^\prime_s}), 1)+\mathcal{L}_{bce}(\mathbf{D}_{ent}(\boldsymbol{E}_{\boldsymbol{I}_t}), 0).\tag{46}\\$
训练分割网络的对抗损失为：
$\mathcal{L}_{ent} = \mathcal{L}_{bce}\left(\mathbf{D}_{ent}(\boldsymbol{E}_{\boldsymbol{I}_{t}}), 1\right).\tag{47}\\$
结合式34和式47，分割网络的总的损失为：
$\mathcal{L}_{seg} = \mathcal{L}_{sup} + \lambda_{ent} \mathcal{L}_{ent},\tag{48}\\$

图6 作者用三种不同规格的凸面镜在北大校园内采集数据

凸面镜反射场景数据集建立

由于该工作是第一个理解凸面镜反射场景的工作，之前没有与凸面镜反射场景有关的数据集。为了促进UDA对凸面镜反射的街道场景进行语义分割的研究，作者在北京大学校园内采集数据，并贡献了一个数据集CMR1K。CMR1K包含1009张凸面镜反射图像，其中268张图像有密集的像素级语义注释。图7中可以看到每个类别的精细标注的像素数量。图8显示了注释的数据的一些例子。CMR1K的细节在下表中显示。

图7 CMR1K 中精细标注的像素数量(Y 轴)及其相关类别(X 轴)

图8 北大校园内采集的数据

表2 CMR1K 数据集细节

实验结果与分析

实验设定

在 UDA 的设置下，提出的 UDA 模型是用标记的源数据和未标记的目标数据来训练的。标记的目标数据的结果被用来评估其性能。CMR1K 作为目标域，其中 741 张未标记的图像用于训练，268 张已标记的数据用于验证提出的算法。对于源域，分别选择 Cityscapes、IDD和 GTA5。

方法整体效果分析

实验结果见下表，作者的方法在 VGG-16 主干网和 ResNet-101 主干网上都大大超过了基线方法。在 ResNet-101 主干网的情况下，实现了 78.14% 的 mIoU，超过了基线的 +10.29%。这表明在正常图像上训练的模型在测试凸面镜反射图像时效果并不好，而他们的方法可以有效地解决它们之间存在的领域转移。与基线相比，作者的方法在结构化类别(表 4的最后一行)表现特别好。例如，在汽车和建筑类别中，实现了 86.41% 和 80.65% 的 IoU，分别比基线高 +24.49% 和 +17.45%。这表明，基线模型在分割结构化物体方面的效果较差。提出的方法可以有效地捕捉到场景中结构化物体的变形信息，并利用这些变形信息指导源域图像合成的方向，从而缓解了这些类别中凸镜和正常图像之间的域移。下图显示了分割结果的可视化。也可以看出，与基线相比，作者的方法在结构化类别上有更好的分割效果。例如，汽车、建筑物和电线杆即使严重变形也能被相对准确地预测出来。

表3 以 VGG-16作为骨干网络，作者的方法和以前的方法在从 Cityscapes到 CMR1K 的适应性上的性能比较

表4 以ResNet-101作为骨干网络，作者的方法和以前的方法在从 Cityscapes到 CMR1K 的适应性上的性能比较。

图9 不同方法的分割结果。可以看出，作者的方法明显优于基线和以前的方法。

以 ResNet-101 骨干网为例，作者的方法比基于特征对抗的 AdaptSeg和基于自信息对抗的 AdvEnt分别多出 9.02% 和 3.28%。这表明，关于中间特征和自我信息的对抗性方法不能有效地缓解正常和凸面镜反射图像之间的领域差距。与自我训练方法相比，作者的方法比 BDL和 LTIR分别多出 4.97% 和 6.72% 的 IoU。这可能是由于正常源域和扭曲的目标域之间在几何外观上的差异，这会导致生成非常嘈杂伪标签，进而导致模型在错误的方向上训练。

一般来说，传统的解决风格差异的方法在处理由几何外观差异引起的领域差距时并不有效。为了缓解这种现象，作者手动合成一系列凸面镜反射数据，即随机生成变形参数，用设计好的 CMSL 离线合成凸面镜数据，将这些数据设置为源域，并再次训练之前的方法。称这种方法为“原始方法 +CMSL”。可以看出，基于自我训练的方法和基于对抗性学习的方法在加入 CMSL 后都得到了性能的提升。尽管如此，作者的方法仍然超过了添加 CMSL 模块的方法。下图显示了合成的凸面镜反射图像和真实图像。

与致力于解决变形图像和正常图像之间的领域差距的方法（Zhang等人，Ye等人）相比，作者的方法也表现出了优越性。作者认为 Zhang 等人利用了注意力机制，而不是明确地对正常图像和畸变图像之间的几何关系进行建模，而 Ye 等人提出的鱼眼模型可能与真正的凸面镜反射模型有比较大的几何域差距。此外，作者还用 ResNet-101 分别对 IDD→CMR1K 和 GTA5→CMR1K 进行了实验，结果见下表。可以看出，作者的方法也超过了基线和以前的方法，包括” 以前的方法 +CMSL”。

小结

自动驾驶往往涉及对周围环境的感知，而凸面镜可以提供额外的信息，帮助做出驾驶决策。然而，凸面镜图像的严重失真导致现有的理解反射场景的方法精度很低，不能满足实际应用需求。来自北京大学的研究团队基于凸面镜成像的几何特性提出了凸面镜的在线模拟层 CMSL，并将其嵌入到设计的框架中。通过对输入空间的边缘和输出空间的语义边界进行对抗性适应，使合成的凸面镜图像在几何外观上与真实图像相似，从而减少它们之间的领域差距，提高场景理解的准确性。由于之前没有凸面镜反射场景的数据集，作者在北京大学校园内采集数据并建立了第一个凸面镜反射场景数据集 CMR1K，以支持凸面镜的研究。大量的实验表明，作者的算法可以大大超越基线和以前的 UDA 方法，这将对自动驾驶、智能交通和其他潜在的应用有很大帮助。