利用隐藏的正例进行无监督的语义分割

Leveraging Hidden Positives for Unsupervised Semantic Segmentation

摘要

对标记像素级注释的人力的巨大需求引发了无监督语义分割的出现。尽管最近使用视觉转换器(ViT)主干的工作显示出了卓越的性能,但仍然缺乏对特定任务的训练指导和局部语义一致性的考虑。
本文方法

  1. 通过挖掘隐藏的正例因素来利用对比学习来学习丰富的语义关系,并确保局部区域的语义一致性。
  2. 首先基于固定的预训练主干和训练中的分割头分别定义的特征相似性,为每个锚点发现两种类型的全局隐藏正例因素,即任务无关和任务特定。后者的贡献逐渐增加,导致模型捕捉特定于任务的语义特征
  3. 引入了一种梯度传播策略来学习相邻patch之间的语义一致性,前提是相邻补丁极有可能拥有相同的语义。
  4. 具体来说,我们将传播到局部隐藏阳性、语义相似的附近补丁的损失与预定义的相似性分数成比例。
    代码地址
    在这里插入图片描述
    假设一个小批量包括(a)中所示的两个图像,我们描述了两种类型的隐藏正例因素,以用于对比学习。
    (a) 通过在(b)和(c)中引入两种类型的隐藏积极因素,我们提供了一个例子,说明我们的训练方案如何提供更精确和一致的语义。(b) (顶部)整个小批量中语义相似的补丁被选为全局隐藏正例。(底部)每个锚点的数据驱动标准是为可靠的正向收集而设计的。根据该标准,所选正例如(b顶部)所示。
    (c) (顶部)我们将每个锚点的局部隐藏正例定义为具有高语义一致性的相邻补丁,即蓝框。(底部)来自预训练的转换器架构的相邻patch的平均注意力得分。蓝线表示局部隐藏正例的注意力得分,而红线表示与锚相邻但语义一致性低的补丁。

本文方法

在这里插入图片描述
图2:global hidden positive(GHP)选择过程的说明。
我们的GHP可以分为两个子集:任务不可知论和任务特定论。
任务不可知GHP的Pag的索引集包括在任务不可知参考池Qag内发现的阳性的索引。
注意,Qag由特征提取器F提取的随机采样特征组成。
一旦锚特征fi被投影到zi,如果小批量中的其他patch与锚特征的相似性超过了锚与Qag中最相似特征之间的相似性,则它们被收集为阳性。
另一方面,以类似的方式发现了任务特定的GHP,但具有任务特定的参考池Qsp,该参考池不断用动量分割头S的特征更新。
尽管任务不可知的GHP集合只对初始训练有贡献,但特定任务的GHP集逐渐取代任务不可知集合的部分,直到训练结束。

一旦收集了参考池,对于每个补丁特征fi,我们定义了一个依赖于锚的相似性标准ci以收集阳性,作为到参考池内最近的特征的距离Qag乘以余弦相似度:
在这里插入图片描述
对于每个锚特征fi,如果fi和fj之间的相似性大于ci,我们基本上将小批量fj中的另一个特征视为正特征。尽管一个补丁特征可能是另一个的正样本,但它可能并不相互支持。这是因为ci的标准是锚定的。为了在训练中赋予一致性,我们使GHP选择对称,以防止两个补丁之间的关系不明确。因此,每个第i个锚特征fi的GHP P ag i的索引集定义如下:
在这里插入图片描述
然而,尽管建立在无监督预训练网络特征基础上的参考库可以作为积极性的适当基础,但它可能是不够的,因为它缺乏任务特异性。我们认为,来自分割头部的特征比来自预训练主干的特征更具任务特异性。因此,除了由P ag选择的GHP之外,我们还利用分割头的特征构建了额外的任务专用GHP。

在这里插入图片描述

目标函数

为了与挖掘的GHP形成对比目标,我们还需要负面特征。当我们在整个小批量中收集积极因素时,对比学习的实现将利用除了小批量中选择的积极因素之外的所有特征作为消极因素。然而,由于负集大小的过度增加可能会干扰模型训练,我们通过为每个第i个锚随机选择剩余补丁的ρ%来形成负集Ni。
我们对每个第i个锚的对比损失更像是监督目标,因为我们得到了多个正例:
在这里插入图片描述

Gradient Propagation to Local Hidden Positives

除了全局考虑语义相似的特征外,常见的假设是附近的像素极有可能属于同一语义类。为此,我们通过将损失梯度传播到锚的周围特征来考虑局部性的性质。尽管如此,传播应该谨慎设计,因为没有给出相邻补丁的语义标签;相邻补丁之间的语义一致性大多成立,但有时不成立(即,在对象边界)。因此,为了决定附近的语义一致的补丁,我们利用来自无监督预训练的ViT主干F的注意力得分。
在这里插入图片描述
梯度传播策略以保持局部语义一致性。对于每个锚,利用其周围的补丁Isurr和来自特征提取器F的相应注意力分数,基于阈值Avg(~T)指定局部隐藏阳性(LHP)Ilocal(等式7)。在前向传递中,根据注意力得分T,通过加权平均混合LHP G(等式8)的特征,以计算目标函数Ψ。以这种方式,损失梯度在后向通路中与T成比例地向LHP传播。

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
高分辨率遥感图像语义分割是指对高分辨率遥感图像进行像素级别的分类,将图像中的每个像素点分配到不同的语义类别中。在PaddlePaddle中,可以使用Wide-Context Transformer网络来进行高分辨率遥感图像语义分割任务。这个网络结构是基于Transformer的,通过引入宽上下文信息来提高语义分割的性能。\[1\] 具体的实现过程可以参考论文《Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images》中的方法。该方法首先将一张高分辨率遥感图像分割成多个小的224x224的图像块,其中两个图像块作为,其余的图像块作为负。然后,通过特征提取网络对图像块进行特征提取。接着,使用RoIs参数来记录局部特征图的位置,以确保不同图像块的局部特征图在原始图像中相互对应。最后,使用经典的语义分割U型结构对特征进行编码和解码,并通过上采样得到最终的语义分割结果。\[2\]\[3\] 总结来说,高分辨率遥感图像语义分割在PaddlePaddle中可以使用Wide-Context Transformer网络进行实现,具体的实现方法可以参考相关论文中的描述。 #### 引用[.reference_title] - *1* *2* [[论文阅读]面向全局:用于高分辨率遥感图像语义分割的宽上下transforms](https://blog.csdn.net/W_zyth/article/details/127228017)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [基于全局和局部对比自监督学习的高分辨率遥感图像语义分割day3 - 网络结构](https://blog.csdn.net/Gw2092330995/article/details/126390230)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值