Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Seg

Yokon_D

已于 2024-03-14 14:40:27 修改

阅读量1.3k

点赞数 25

分类专栏：论文精选文章标签：深度学习

于 2024-03-14 14:39:05 首次发布

本文链接：https://blog.csdn.net/qq_51338442/article/details/136709281

版权

论文精选专栏收录该内容

11 篇文章 0 订阅

订阅专栏

强、少、优:利用视觉基础模型进行领域广义语义分割

cvpr
Zhixiang Wei， Lin Chen，Yi Jin，Xiaoxiao Ma， Tianle Liu， Pengyang Ling，Ben Wang，Huaian Chen，Jinjin Zheng
2024

摘要：在本文中，我们首先评估和利用领域广义语义分割(DGSS)背景下的各种视觉基础模型(VFMs)。利用更强的预训练模型和更少的可训练参数来获得更好的泛化性，我们引入了一种鲁棒微调方法，即“Rein”，以参数有效地利用DGSS的VFMs。Rein建立在一组可训练的令牌之上，每个令牌都与不同的实例相关联，它精确地将特征映射从骨干网络的每一层细化并转发到下一层。这个过程在一张图像中为不同的类别产生不同的细化。使用更少的可训练参数，Rein有效地微调了DGSS任务的VFMs，令人惊讶地超过了全参数微调。在各种环境下进行的大量实验表明，Rein明显优于最先进的方法。值得注意的是，只需要额外1%的可训练参数在冷冻主干中，Rein在不访问任何真实城市场景数据集的情况下，在城市景观上实现了68.1%的mIoU。代码可从https://github.com/ w10ves /Rein.git获得。

这里先描述两个概念：

领域广义语义分割。领域广义语义分割(DGSS)侧重于提高模型的泛化能力。该领域通常涉及在一组源域数据上训练模型，以提高它们在不同和不可见域数据集上的性能。
视觉基础模型。基础模型的概念最初是由Bommasani等人在自然语言处理(NLP)领域提出的，定义为“以自监督或半监督的方式在大规模数据上训练的基础模型，可以适应其他几个下游任务”。

论文面对的问题：

如何更好地利用视觉基础模型（Vision Foundation Models，简称VFMs）来实现域泛化语义分割（Domain Generalized Semantic Segmentation，简称DGSS）。这一问题涵盖了两个主要方面：一方面是如何评估不同VFMs在DGSS任务中的性能，另一方面是如何有效地调整和利用这些模型以提高其在不同域上的泛化能力。

VFMs在DGSS任务中的性能评估问题：
        如何选择合适的VFMs作为DGSS任务的基础模型？
        这些VFMs在DGSS任务上的性能如何？
        相比传统的模型，VFMs在哪些方面具有优势？

如何有效地调整和利用VFMs以提高其在DGSS任务上的泛化能力问题：
        现有的VFMs是否可以直接应用于DGSS任务，还是需要进行特定的调整或优化？
        如何设计一种有效的微调方法，使得VFMs在保持其预训练知识的同时，能够适应不同的域并进行精确的语义分割？
        在调整VFMs时，如何平衡模型的复杂度和性能，以实现在保持高泛化能力的同时，减少训练参数的数量？

提出方法：

论文提出一种能够有效利用VFMs进行DGSS的方法，并通过实验验证其优越性和有效性。这不仅能够推动VFMs在DGSS任务中的应用和发展，也为解决其他类似的域泛化问题提供了新的思路和方法。

首先评估了领域广义语义分割(DGSS)背景下的各种视觉基础模型(VFMs)。我们在DGSS框架中的大量实验突出了vfm令人印象深刻的泛化能力。研究结果证实了vfm作为更强的骨干，从而在该领域建立了一个重要的基准。

提出了一种鲁棒微调方法，即“Rein”，以参数有效地控制VFMs。Rein的核心是一组可学习的令牌，每个令牌都直接与不同的实例相连。通过精心设计，这种链接使Rein能够在每个骨干层的实例级别上细化特征映射。因此，Rein增强了VFMs在DGSS任务中的能力，在保留预训练知识的同时，使用更少的可训练参数实现了这一目标。

Rein主要由一组低阶可学习令牌组成，表示为T = {T1, T2，…， n}。这些令牌建立到不同实例的直接连接，促进了实例级特性的细化。该机制的结果是为骨干内的每一层生成一个增强特征映射f ' i = fi + Rein(fi)。所有mlp共享相同的参数，以减少参数的数量。符号max & avg & last指的是方程Eq.(8)和Eq.(10)。

各种DGSS设置的综合实验表明，Rein使用更少的可训练参数来有效地利用更强的VFMs来实现更好的泛化。这种性能大大超过了现有的DGSS方法。值得注意的是，Rein被设计成与现有的vit集成，提高了它们的泛化能力，提高了训练效率。

在GTAV + Synthia→cityscape (Citys) + BDD100K (BDD) +Mapillary (Map)概化下，所提出的Rein与其他DGSS方法的性能比较。模型在GTAV和Synthia上进行了微调，在cityscape, BDD100K和Mapillary上进行了测试。

城市景观→BDD100K (BDD) +Mapillary (Map)概化下Rein与其他DGSS方法的性能比较模型在城市景观上进行微调，并在BDD和Map上进行测试。

GTAV下的定性比较→cityscape (city) + BDD100K (BDD) + Mapillary (Map)概化设置。

未来工作及不足：

模型优化与扩展：在未来的研究中，可以进一步探索如何优化本方法的模型架构，以提高其性能。此外，还可以考虑将该方法扩展到其他相关领域，如目标检测、图像生成等，以验证其通用性和泛化能力。
多模态数据处理：考虑到现实世界中数据的多样性，未来可以研究如何将本方法应用于多模态数据处理，如同时处理文本、图像和视频等多种类型的数据。这将有助于更好地理解和利用复杂的数据集。
实时性与效率提升：对于某些应用场景，如自动驾驶、实时监控系统等，对算法的实时性和效率要求较高。因此，未来的工作可以致力于提升本方法的计算效率，以满足实时处理的需求。

引文格式：

在面对Domain Generalized Semantic Segmentation（DGSS）任务中，如何有效利用预训练的Vision Foundation Models（VFMs）的问题时，研究者采用了名为“Rein”的鲁棒微调方法。这种方法通过参数高效地利用VFMs，成功解决了DGSS任务中，预训练模型参数过多、难以训练的问题。Rein方法建立在可训练标记集的基础上，每个标记与不同的实例相关联，从而能够精确地对VFMs中的每一层特征图进行细化和前向传播。这种过程为单个图像中的不同类别产生了多样化的细化结果。通过减少可训练参数的数量，Rein有效地微调了VFMs以适应DGSS任务，令人惊讶的是，其性能甚至超过了全参数微调。然而，尽管Rein方法在DGSS任务中取得了显著的成功，但在处理更复杂的场景或更大的数据集时，可能仍需要进一步优化和完善。此外，如何进一步提高Rein方法的泛化能力，使其能够适应更多样化的视觉任务，也是未来研究的一个方向。

============================================================================

写代码困难？文本语言大模型给出的代码容易出错？

我无意中发现了阿里的新产品——通义灵码，是阿里云出品的一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云的云服务使用场景调优，助力开发者高效、流畅的编码。

通义灵码能够根据需求给出合适的代码，并且能够支持 Java、Python、Go、JavaScript、TypeScript、C/C++、C# 等主流语言，同时兼容 Visual Studio Code、JetBrains IDEs 等主流编程工具，为你提供高效、流畅、舒心的智能编码体验。

「通义灵码 · 体验 AI 编码，开 AI 盲盒」

通义灵码才刚刚推出，现在使用通义灵码还有机会参与活动获得奖品，用户进入活动页面后，随机参与或体验活动页面中通义灵码的任一场景，即可获取一次开“AI盲盒”的资格。用户获取资格后，需要在IDE端下载通义灵码插件并输入“@灵码开盲盒”，即可打开盲盒并查看盲盒内奖品。具体活动玩法以届时活动页面实际指引、提示为准。活动期间同一用户仅能参与一次活动玩法。点击下方链接参与盲盒活动：

https://developer.aliyun.com/topic/lingma/activities/202403?taskCode=14508&recordId=2b78ca6adfee5d5049e62382193ba0e9#/?utm_content=m_fission_1 「通义灵码 · 体验 AI 编码，开 AI 盲盒」

Yokon_D

关注

25
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Seg

利用更强的预训练模型和更少的可训练参数来获得更好的泛化性，我们引入了一种鲁棒微调方法，即“Rein”，以参数有效地利用DGSS的VFMs。因此，Rein增强了VFMs在DGSS任务中的能力，在保留预训练知识的同时，使用更少的可训练参数实现了这一目标。，是阿里云出品的一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云的云服务使用场景调优，助力开发者高效、流畅的编码。
复制链接

扫一扫