ACM MM 2022 | 基于GMM的多重prototype,助力UDA语义分割新SOTA

05befff3d2e67b138609c22f22b086c0.gif

©作者 | 陆裕磊

单位 | 浙江大学

研究方向 | 图像分割领域自适应

bdd007ff5f5319975eb1beb5a6f49a58.png

论文标题:

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation

论文作者:

Yulei Lu , Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao (ACM MM 2022)

论文链接:

http://arxiv.org/abs/2204.07730

开源代码:

https://github.com/luyvlei/BiSMAPs

80d44dc56f4ecc6502aebfdd37e7e3d6.png

任务介绍

近年来,随着深度神经网络的发展,语义分割任务取得了显著的进展。然而,令人满意的性能却伴随着昂贵标注代价,缓解标注成本问题的一个有效解决方法便是使用图形学仿真或者游戏引擎生成合成数据集。然而,域偏移(domain-shift)阻碍了在合成图像上训练的模型进一步部署在实际环境中。

为了解决这个问题,领域适应(DA)方法提出了弥合源域和目标域之间的差距。在实际应用中,无监督域适应(unsupervised domain adaptation, UDA)由于不需要来自目标域的任何标记样例,最终将人工工作量降至最低而备受关注。

3a2757aad0853ac3b9adbe5778ee7527.png

本文动机

d90254e66f42952347577f5945160e05.png

首先,现有方法利用整个源域信息进行适应,忽略了一些困难和受干扰源域样本对目标域性能没有贡献甚至阻碍的事实。例如,GTA5 的数据集包含大量关于山区的场景,而 cityscape 则没有。为了实现区域对齐,引入这些像场景的样本反而会使目标分布发生偏移。

第二,传统方式传统方法假设每个类别服从具有相同方差的各向同性分布,因此简单地使用单个特征质 作为原型,采用欧氏距离作为度量来评估候选特征与当前原型的相似度。通过这种方式,与原型足够接近的特性将被分配一个伪标签。然而,这一假设并不一定适用于语义分割的像素级特征。

例如,“vegetation” 是一个类,但它实际上包括树干树冠等不同的部分。当使用单一的原型来表示 “vegetation” 时,树干的特征可能会不恰当地映射到更接近 “pole” 的原型,如图 1(a) 所示。此外,简单地使用欧氏距离作为度量,而忽略每个类的方差,可能会进一步恶化相似类别之间的伪标签分配,如图 1(c) 所示。

30faa993944943987e4a176390ae7d95.png

本文方法

3.1 双向自训练框架

223f5374d03dc64a04402710f50a02ce.png

▲ 图2

双向的思想如图所示。它包括一个“前向过程”——利用源域原型在目标域内选择可靠的伪标签;一个互补的“反向过程”——利用目标域原型对源域的困难样本或干扰性样本进行“降级”。

在前向过程,我们改进了传统的自训练方法,引入“多重各向异性原型”来生成更准确的伪标签。在反向过程,我们生成源域可转移图(STM)来表示每个源样本在适应中的重要性,并相应地调整训练损失映射的权重。下面分别介绍前向过程和反向过程。

3.2 前向过程——多重各向异性原型

88f8e769f2dfeb442bec45bacb491406.png

▲ 图3

为了缓解传统单质心的表示能力的不足,我们使用高斯混合模型来代替传统的单质心模型如图 3 所示。高斯混合模型的对数概率密度由如下公式得出:

130d7de7d0117a43f24d4bdf469da820.png

在源域上我们使用预训练过的语义分割模型抽取像素级特征,然后基于高斯混合模型求解各个类别的原型。在目标域上,基于同样的原型抽取出像素级特征后,我们基于公式(4)求解每个像素属于各个高斯混合模型的对数似然值作为特征与原型的相似度度量。最后使用公式(6)基于对数概率密度阈值来筛选出高置的样本。

0d669c9f71e08d0864f53b87ef083900.png

3.3 反向过程——源域样本降级

在目标域基于无监督聚类生成原型,对于源域特征,我们使用计算他与目标域原型最小的距离:

620795927771626e550422227c11d3d6.png

这里 D(x) 衡量了任意一个源域特征到目标域的距离,A 代表聚类出来的目标域原型。

但是由于长尾分布的影响,头部类会得到一个比较高的权重,因此我们引入类别熵来平衡类别级的可迁移性,具体来说,我们使用归一化类别熵和特征距离的和求解出综合可迁移性:

8d981f75bd3012cf58fdef1308db8596.png

f9e8d6630fbe7d148ee3731ef3b39a6e.png

其中 e 代表类别熵,d_mean 代表平均特征距离。

3.4 训练流程

986524ee711570c82892bf2465ce8237.png

▲ 图5

训练遵循预训练+自训练的二阶段范式:

对于源域,基于可迁移图做加权的监督训练:

122dd3bf55625956a8b6dcfab108c483.png

对于目标域,使用对称交叉熵和伪标签做监督训练:

5fd199a02ff4c58cbb4d1f601c46835e.png

另外领域数据增强和 EMA 模型,对训练施加一致性正则化:

a93d40d11e07a1e20dabc183a2dac587.png

最终损失由这 3 项构成,在预训练阶段,仅包含公式(10)的损失:

82ba8fb3f5b043758510363abb2c2d1b.png

8f86d99bd138e8612f6b97bde7fd21ca.png

实验结果

4.1 与其他方法对比

与其他 SOTA 方法比较,本文方法在 GTA5->Cityscape 任务上蒸馏前取得了 57.7 的性能,蒸馏后达到了 61.2 的性能,达到了 SOTA 的效果。

33fd7e89fda827fe104871cd0ea35834.png

4.2 消融分析

在预训练阶段,源域可迁移图(STM)的引入相比 baseline 带来了 1.9 的性能增益,自训练阶段多重各向异性原型带来了 9.1 的性能提升。综合一致性正则和蒸馏技术,最终的性能达到了 61.2.

eb26dcb2df7e44d51a1a34c6d9e54015.png

更多阅读

60970bb93700b544d9bba9edd1e1b926.png

de137ca79b3dad5beebd9a0657e1c6d1.png

5f795c0c1aad98cbb4bbc4a15529d7ae.png

b89d1453c8032a7068b040f63027049d.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

46f23e6439ba7b85e556779fee270bb8.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

28864a19ad21edb7c95b2292f7a792d6.jpeg

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值