GoodSAM论文阅读

最新推荐文章于 2024-09-30 23:27:10 发布

曜耀燿矅

最新推荐文章于 2024-09-30 23:27:10 发布

阅读量979

点赞数 25

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_52679996/article/details/137710363

版权

本文介绍了一种名为GoodSAM的新框架，通过整合SegmentAnythingModel(SAM)和教师助手(TeacherAssistant,TA)，解决了全景语义分割中知识转移和容量差距问题。提出Distortion-AwareRectification(DAR)模块和多级知识适应(MKA)模块优化预测并减轻ERP图像失真。实验结果显示，GoodSAM在基准测试中显著优于最先进的领域自适应方法，且轻量级模型表现出色。

摘要由CSDN通过智能技术生成

Good SAM实验环境配置

本实验并没有将代码开源，所以具体实验细节我们不得而知，然后项目位置 GoodSAM

数据集准备

详情请见这篇Trans4PASS论文阅读与实验复现-CSDN博客，虽然作者没有说明白，但是数据集应该就是这几个

论文阅读

GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model
for Distortion-aware Panoramic Semantic Segmentation

这个是工作介绍，仍然是说少量的参数就实现了较好的效果。这个作者给了我一个发文思路：那就是用当下较好的网络模型应用到实验领域中，然后进行比较分析，看看能否获得更好的效果。

Abstract

这篇论文解决了一个新颖而具有挑战性的问题：如何从新兴的“Segment Anything Model”（SAM）中转移知识，SAM展现出了令人印象深刻的零样本实例分割能力，以学习一种紧凑的全景语义分割模型，即学生模型，而不需要任何标记数据。这带来了相当大的挑战，因为SAM无法提供语义标签，并且SAM与学生之间存在巨大的容量差距。为此，我们提出了一个名为GoodSAM的新框架，引入了一个教师助手（TA）来提供语义信息，与SAM集成以生成集成logits以实现知识转移。具体来说，我们提出了一个名为Distortion-Aware Rectification（DAR）模块的方法，该模块首先通过施加预测级别的一致性和边界增强来解决全景图像的失真问题。这在微妙地增强了TA对全景图像的预测能力。然后，DAR模块结合了一个跨任务的互补融合块，自适应地合并了SAM和TA的预测，以获得更可靠的集成logits。此外，我们引入了一个多级知识适应（MKA）模块，从TA和集成logits中有效地转移多级特征知识，以学习一个紧凑的学生模型。在两个基准测试上进行的大量实验表明，我们的GoodSAM相对于最先进的领域自适应方法取得了显著的+3.75%的mIoU改进，例如，[41]。此外，我们最轻量级的模型仅使用3.7M个参数，就实现了与SOTA方法相当的性能。

综合来看，在SAM上进行了相关修改，相当于缝了两个网络，最后提升了分割效果。

Introduction

这个introduction和之前的DATR论文阅读与实验复现-CSDN博客的introduction非常相似，这里不过多赘述

Related Work

此部分内容同上述的introduction一样，也不过多赘述。

Method

这个网络结构具体来看是两个部分，然后是上边进行SAM+TA的特征提取，这个特征学习到student端的迁移，然后和student端获取结果。

概述。我们的框架概览如图2所示。给定一个未标记的全景图像 x ∈ RH×W ×3 ，我们旨在在SAM FT（即教师）的指导下，并在教师助手（TA）FT A 的协助下，训练一个紧凑的全景语义分割模型（即学生）FS。需要注意的是，TA旨在在训练过程中填补SAM和学生之间的容量差距。为了减轻ERP大视场的影响，我们采用了重叠滑动窗口策略从输入的ERP图像中提取 n 个局部补丁 n−1 {Wi }i=0。由于水平像素分布的失真比垂直像素分布更严重，我们选择进行水平窗口滑动。通过设置滑动窗口的移动步长，我们可以获得两个水平相邻窗口 Wi 和 Wj 之间的重叠区域 Oi。随后，补丁被输入到SAM FT 和 TA FT A 中，产生它们各自的预测 Ii 和 Si。此外，重叠区域 Oi 专门输入到FT以推导相应的边界图（BSAM）。对于学生模型FS，我们将ERP图像 x 输入以获得语义预测图 PS。挑战在于：1）有效地融合SAM FT和TA FT A 的预测，以获得更可靠的集成logits Ei，作为学生模型FS的监督；2）有效地从集成logits Ei 和FT A 进行知识适应到我们的紧凑学生FS。为此，我们介绍了GoodSAM框架，由两个关键技术模块组成：扭曲感知校正（DAR）模块（第3.1节）和多级知识适应（MKA）模块（第3.2节）。我们现在详细描述这些模块。

Distortion-Aware Rectification (DAR) Module

DAR模块旨在基于SAM和TA生成集成logits。具体而言，与2D图像相比，ERP图像具有较大的视场和失真问题，影响了SAM和TA的性能。我们引入了一致性约束和边界增强。此外，SAM和TA生成不同类型的分割图：SAM提供实例掩码，而TA生成语义地图。因此，我们提出了跨任务互补融合块。现在我们详细说明这些内容。

一致性约束。它旨在帮助TA生成具有扭曲感知的语义地图。对于相邻的补丁Wi和Wj，由于ERP的失真，Wi和Wj之间的重叠区域Oi的FT A的预测Si和Sj可能存在差异。因此，该约束的目的是最小化重叠区域中的差异。为简单起见，我们利用均方误差（MSE）损失来确保预测的一致性。因此，我们可以增强FT A 对局部失真的敏感性。形式上，一致性约束损失LCC为：

边界增强块。由于SAM具有较强的零样本能力，可以提供相对准确的边界地图，我们提出了一个边界增强块来优化TA的预测中的边界像素，灵感来自于[17]。通过提高TA在预测边界像素方面的准确性，我们旨在减轻失真和目标形变对TA的影响。该块包括两个组件：边界细化策略和边界增强损失。如图3（a）所示，对于两个相邻的窗口Wi和Wj，我们获得了重叠区域Oi的两个单独的边界地图BTi A和BTj A。边界细化策略旨在通过组合BTi A、BTj A和SAM的BSAM来识别重叠区域内的可靠边界像素（标记为绿色、蓝色和橙色点），以获得精细化的边界地图Bref。这种策略的详细算法可以在补充材料中找到。具体来说，对于输入的边界地图BTi A，我们首先遍历其边界像素，并在相同位置的BTj A和BSAM中找到相应的像素。如果在相同位置的相应像素都位于边界上（见图3（a）），则认为该像素是可靠的边界像素。对于不符合上述条件的情况，我们在相同位置的BSAM中找到相应像素，并在垂直方向上识别最近的边界像素（粉色点）（见图3（b））。随后，我们在BTi A和BTj A中找到相同位置的像素（粉色点），对于每个像素，对其logits（1×1×C，其中C是类别数）执行softmax。我们计算BTi A和BTj A中每个相应像素的前两个softmax值之间的差值，分别表示为Di和Dj。当Di或Dj的值小于α时，我们确定BSAM的边界像素也具有与另外两个边界地图中的边界像素相似的特征。因此，我们将SAM的边界像素（粉色点）定义为可靠的。参数α确定SAM边界像素的影响强度。最后，如果没有满足上述条件的情况，我们决定保留BTi A的边界像素作为可靠像素。通过这种方式，我们获得了一个具有所有可靠边界像素的细化边界地图Bref，用于更新TA FT A和学生FS。接下来，我们引入了一个边界增强损失（见图3（a）），以鼓励TA的边界像素预测与细化边界地图紧密对齐：

, 其中Co表示Bref的总边界像素计数，k表示边界地图中的第k个像素。这明确减轻了由ERP失真引起的边界像素预测错误。

公式有点小乱码，就先不粘了，这段说的很复杂，其实需要结合实验部分的内容看一下就好理解了，最显著的就是像下图一样，然后在Segforemr-B5这个位置你看到房屋的棱角是不清晰的，然后在和SAM通过这个CTCF Block后，棱角类似于清晰补全了，这应该是一种数据增强？（这里因为不是很懂SAM的work原理，所以这个地方理解存在些问题）

然后整个这个模块我的理解就是对于数据进行增强，使得他们更加满足一些约束条件，就比如说这个像素本来是房屋棱角，标注后也许是别的东西，他用约束又把这种可能错误的标注又修改了，所以最后的实验效果精度提高那么就是肯定的了。

Multi-level Knowledge Adaptation Module

这个Multi-level Knowledge Adaptation Module 看不懂斯密达，我的理解是先生成一个迁移结果，然后再用一个CE交叉熵函数辅助形成矫正这个迁移结果，然后满足某个收敛条件停止矫正，默认这个状态下是最好的？这个有点像预训练？先用一个模型生成目标域的标签影像，然后再用学习到的知识迁移对这个标签影像进行处理，得到知识约束下的标签影像。我的理解是这样。