Towards Noiseless Object Contours for Weakly Supervised SemanticSegmentation

摘要

由于图像标签容易获取,基于图像级标签的弱监督语义分割备受关注。现有的方法通常是从类激活图(CAM)生成伪标签,然后训练分割模型。CAM通常突出显示部分对象并产生不完整的伪标签。一些方法通过在CAM种子标签监督下训练轮廓模型来探索目标轮廓,然后在轮廓引导下将CAM分数从判别区域传播到非判别区域。传播过程受目标内轮廓噪声的影响,传播结果不充分会产生不完整的伪标签。这是因为粗糙的CAM种子标签缺乏足够精确的语义信息来抑制轮廓噪声。本文通过骨干特征共享和在线标签监督,训练了一个SANCE模型,该模型利用辅助分割模块来补充轮廓训练的高级语义信息。辅助分割模块还提供了比CAM更精确的伪标签生成定位图。我们以Pascal VOC 2012和MS COCO 2014为基准评估了我们的方法,并取得了最先进的性能,证明了我们方法的有效性。

The source code can be found at https://github.com/BraveGroup/SANCE

1.引言

如图1 (a)所示,颈部区域的噪声边缘阻碍了目标从头部区域到身体区域的评分,伪标签仅覆盖头部区域。这是因为轮廓监督信号CAM种子标签缺乏足够的高级语义信息。CAM是一个粗糙的定位图,我们只能得到稀疏的种子标签,其中包含许多不确定的像素标签,同时CAM通常会突出前景物体周围的背景区域,从而导致CAM种子标签中的目标区域出现假阳性。

为了使轮廓模型探索具有较少噪声的目标内部边缘的目标轮廓,除了CAM种子标签监督外,我们还采用了辅助分割模块,为轮廓模型训练提供足够的高级语义信息。首先,分割分支通过共享主干特征向轮廓分支共享语义知识;其次,对分割图进行细化,生成在线标签,为轮廓分支提供足够的高层次语义监督;为了使分割分支能够准确预测结果,我们采用CAM种子标签和在线标签作为训练信号。总体上,我们的模型包含一个轮廓分支和一个分割分支,我们称之为分割辅助无噪声轮廓探测模型(SANCE),这两个分支共享同一主干,并使用CAM种子标签和在线标签进行监督。在线标签是在轮廓约束下通过分数传播细化分割图生成的。对于具有目标内边缘的轮廓地图,分割地图比CAM地图覆盖了更多的目标部分,因此被噪声边缘分割的目标邻近区域在精细分割地图中获得了较高的前景分数,在在线标签中给出了完整的目标估计,并且抑制了噪声的目标内边缘。另一方面,在线标签由于轮廓信息给出了更精确的目标形状,从而迫使分割分支预测完整和精确的目标定位图。经过训练,我们的SANCE模型预测出了无噪声的目标轮廓和高质量的分割图,如图1 (b)所示,我们在此基础上生成了更完整的伪标签。本文的主要贡献总结如下:

  • 我们识别了最近的轮廓辅助CAM改进方法中用于WSSS问题的目标内边缘问题。对象内边缘可能会阻碍对象分数的传播,导致伪标签不完整。
  • 引入SANCE框架,利用辅助分割分支的高级语义信息来探索无噪声目标轮廓。
  • 在Pascal VOC 2012基准上,我们使用生成的伪标签训练DeepLabv2,并在val和测试集上分别以72.0%和72.9%的mIoU实现了最新的性能。在MS COCO 2014上,我们也实现了新的最先进的性能,在val set上有44.7%的mIoU。

图一:IRNet和我们的伪标签生成。(a) IRNet等高线地图包含了很多目标内的边缘,遗漏了一些真实的轮廓,CAM分数不能从判别区传播到非判别区。(b)我们的SANCE预测了无噪声的轮廓和更完整的分割图,从而产生更好的伪标签。 

3. The Proposed Approach

如图2所示,SANCE训练过程包含两个阶段。第一阶段采用CAM从图像分类标签中估计初始粗种子。在第二阶段,SANCE学习在粗CAM种子的监督下预测无噪声物体轮廓。SANCE包含一个轮廓分支和一个辅助分割分支,它们共享同一主干,它在辅助分割分支的帮助下学习探索无噪声目标的轮廓。经过训练后,SANCE预测出准确的轮廓地图和分割地图,我们采用这两种地图生成可靠的伪标签用于标准分割模型训练。

在下面几节中,我们将详细说明SANCE的细节。

 图二:SANCE培训过程。给定训练图像,我们首先在阶段1中从训练好的分类网络中脱机获取它们的C

### AODRaw在不同条件下的RAW对象检测 AODRaw 是一种专注于处理原始图像数据(RAW 数据)的对象检测方法。其设计目标是在不依赖传统 JPEG 或其他压缩格式的情况下,直接从相机传感器捕获的 RAW 图像中提取特征并完成对象检测任务。这种方法的优势在于能够保留更多的细节信息,从而提高检测精度。 #### 原始点云与网格模型的关系 尽管 AODRaw 的主要应用场景并非点云或网格结构的数据,但可以借鉴类似的理论基础来理解其工作原理。例如,在三维重建领域,点云表示物体为空间中的离散点集合[^1]。然而,由于缺乏连接性信息,这些点之间的关系难以被有效利用。相比之下,基于网格的方法通过定义顶点间的拓扑关系提供了更丰富的几何描述。这种对比启发我们思考如何在二维平面内构建像素级关联以增强 RAW 数据的表现力。 #### 高效架构搜索策略的应用 为了优化 AODRaw 的性能表现,研究者引入了一种名为 RANK-NOSH 的高效预测器驱动型神经网络架构搜索算法[^2]。该技术采用非均匀连续削减机制筛选候选解空间内的潜在优秀配置方案,并结合排名估计进一步缩小探索范围直至找到最优子网结构为止。此过程显著降低了计算成本的同时还保持了较高的准确性水平。 #### 边缘设备上的AI模型管理实践 当考虑将 AODRaw 应用于实际场景时,则不可避免地涉及到部署于资源受限环境(如移动终端)上运行这一挑战。此时就需要一套完善的解决方案来进行有效的版本控制、实时监控以及周期性的参数调整操作[^3]。只有这样才能确保即使面对不断变化的实际拍摄状况也能维持稳定可靠的识别效果。 以下是针对上述讨论提出的几个具体实现方向或者改进思路: ```python import torch.nn as nn class AODRawDetector(nn.Module): def __init__(self, backbone='resnet', num_classes=80): super(AODRawDetector, self).__init__() # Backbone initialization based on selected architecture. if backbone == 'resnet': from torchvision.models import resnet50 self.backbone = resnet50(pretrained=True) elif backbone == 'custom': pass # Customized lightweight network design here. # Additional layers tailored specifically towards handling raw image inputs. self.raw_preprocessor = nn.Sequential( nn.Conv2d(in_channels=4, out_channels=64, kernel_size=7), nn.ReLU(), ... ) def forward(self, x): processed_x = self.raw_preprocessor(x) features = self.backbone(processed_x) return features ``` 以上代码片段展示了一个简化版的 AODRaw 检测框架雏形。其中包含了预处理器模块用来适配来自 CMOS/CCD 芯片未经加工过的四通道 Bayer Pattern 输入;同时也预留接口允许替换不同的骨干网络组件满足特定需求。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值