面向语义分割的无源领域自适应

最新推荐文章于 2025-03-04 09:30:00 发布

AI速递

最新推荐文章于 2025-03-04 09:30:00 发布

阅读量744

点赞数

分类专栏：图像分割最新论文（计算机视觉）文章标签：机器学习人工智能深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/m0_48360907/article/details/115365789

版权

最新论文（计算机视觉）同时被 2 个专栏收录

11 篇文章

订阅专栏

图像分割

1 篇文章

订阅专栏

提出了一种名为SFDA的无源域自适应框架，该框架能够在无源数据的情况下进行语义分割任务的领域自适应。通过知识转移和模型调整，SFDA能够在目标域上实现有效的模型迁移。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

面向语义分割的无源领域自适应

Source-Free Domain Adaptation for Semantic Segmentation
在这里插入图片描述

Y uang Liu , Wei Zhang*, Jun Wang*

East China Normal University, Shanghai, China

{frankliu624, zhangwei.thu2011, wongjun}@http://gmail.com

无监督领域自适应(UDA)可以解决基于卷积神经网络(CNN)的语义分割方法严重依赖像素级标注数据的挑战，这是劳动密集型的。然而，在这方面，现有的UDA方法不可避免地需要完全访问源数据集，以减少模型调整期间源域和目标域之间的差距，这在源数据集是私有的真实场景中是不切实际的，因此不能与训练有素的源模型一起发布。为了解决这个问题，我们提出了一个语义分割的无源域自适应框架，即SFDA框架，其中只有一个训练有素的源模型和一个未标记的目标域数据集可用于自适应。SFDA不仅能够在模型自适应期间通过知识转移从源模型恢复和保存源领域知识，而且能够从目标领域提取有价值的信息用于自我监督学习。为语义分割定制的pixeland补丁级优化目标无缝集成到框架中。在大量基准数据集上的大量实验结果强调了我们的框架相对于依赖于源数据的现有UDA方法的有效性。

在这里插入图片描述

语义分割一直是计算机视觉的一项重要任务，其目的是将场景图像分割和解析成与语义类别相关的不同图像区域。这对于准确理解视觉场景至关重要，并可应用于许多潜在应用，如自动驾驶[7]、视觉基础[20、45、39]和图像编辑[31]。但是当前分割技术的成功依赖于大规模密集标记的数据集，这些数据集在现实中收集起来非常昂贵。例如，手动注释一幅城市风景图像需要大约90分钟。解决这个问题的一个直观方法是从在源数据集上训练的现有模型到未标记的目标域。然而，它往往受到域转移问题的阻碍，这是由源域和目标域中的各种数据分布引起的。

针对语义分割的无监督领域适应(UDA) [13，54，19，6]已被提出来解决这个问题，并在未标记的目标领域上推广训练有素的模型，避免昂贵的数据标注。所有的方法都假设训练有素的源模型和标记的源数据集都是可用的。这是因为源数据在自适应训练期间保留有价值的源知识和迭代减少跨域差异方面起着至关重要的作用。然而，在一些关键领域，如自动驾驶，源数据集可能是私有的和商业的，使得只有源模型和未标记的目标数据集可用。由于缺乏对源域的监管和目标伪标签的不确定性，这些UDA方法都不能在这样的无源场景中工作。

基于这些见解，我们提出了一个新的重要问题——语义分割的无源域自适应，其中只有训练有素的源模型和未标记的目标域数据集可用于自适应。最近，已经开发了少量的无源UDA方法[25，24，27，38，22，26]来解决图像分类中的类似问题。然而，图像级计算机视觉任务只是将标签与整个图像相关联，这与图像有着根本的不同属于像素级任务的分割，每个像素与一个语义标签相关联。如图1所示，一个目标图像的伪标签包含在不同分布上移动的多个类。因此，对于上述方法来说，利用聚类来适应每个类并不重要。由于考虑到没有源数据就不能保存和利用源领域知识，所以我们试图通过引入最初用于模型压缩的无数据知识提取方法[29，3，30，11，48]来恢复和转移源领域知识

在这里插入图片描述

在这项工作中，我们提出了一个新的无源无监督领域自适应分割框架，即SFDA。我们的框架在两个阶段交替工作:知识转移和模型适应。由于源数据的不可获得性和目标伪标签的不确定性，在自适应训练过程中，恢复和保存源模型学习到的源知识至关重要。这是因为目标伪标签中的不确定监督信息会使目标模型偏离工作域。因此，在知识转移阶段，我们利用生成器来估计源域(工作域)并合成与分布中的真实源数据相似的假样本，这可用于将域知识从训练有素的源模型转移到目标模型。语义分割网络的关键在于捕捉上下文特征关系。基于这种直觉，引入了双重注意提取机制来帮助生成器合成具有有意义语义上下文的样本，这有利于像素级领域知识的高效传递。此外，源模型可以在部分目标域上很好地工作，并预测正确的标签。因此，我们提出了一个基于熵的域内补丁级自我监督模块(IPSM)，以利用正确分割的补丁作为模型自适应阶段的自我监督。

我们的主要贡献可以总结如下:我们提出了新的SFDA框架，它结合了知识转移和模型调整，而不需要任何源数据和目标标签。据我们所知，这是第一次尝试解决语义分割的无源代码UDA问题。一种新的双重注意力提取机制专门用于分割，以转移和保留上下文信息，并引入域内补丁级自我监督模块，以利用目标域中的补丁级知识。我们展示了我们的框架在合成到真实和跨城市细分场景中的有效性。特别是，它甚至可以在无源代码的环境下，通过最先进的源代码驱动的UDA方法获得有竞争力的结果。