Learning to Detect Open Classes for Universal Domain Adaptation 龙明盛 简单记录笔记

Learning to Detect Open Classes for Universal Domain Adaptation 龙明盛 简单记录笔记

Abstract

通用领域适应(UniDA)在领域之间传递知识,而对标签集没有任何约束,扩展了领域适应在野外的适用性。在UniDA中,源标签集和目标标签集都可以包含其他域不共享的单个标签。UniDA的一个事实上的挑战是将共享类中的目标实例与域偏移进行分类。UniDA的一个更突出的挑战是将目标个体标签集中的目标实例(开放类)标记为“未知”。这两个错综复杂的挑战使工发组织成为一个未被充分探索的问题。以前关于UniDA的工作侧重于共享类中数据的分类,并使用每类准确性作为评估指标,这严重偏向于共享类的准确性。然而,准确地检测开放类是实现真正的通用域适配的关键任务。它进一步将UniDA问题转化为一个成熟的闭集域适应问题。为了实现精确的开放类检测,我们提出了校准的多重不确定性(CMU),它具有一种新的可传递性度量,由互补的不确定性量的混合来估计:熵、置信度和一致性,定义在由多分类器集成模型校准的条件概率上。新的可迁移性度量准确地量化了目标示例向开放类的(倾斜程度?)。我们还提出了一种新的评价指标,称为H-score,它强调了共享类和“未知”类的准确性的重要性。在统一数据分析环境下的实证结果表明,CMU在所有评价指标上都优于最先进的领域适应方法,尤其是在H-score的评估下。

UniDA的挑战

① 将共享类中的目标实例与域转移进行分类
② 将目标个体标签集中的目标实例(开放类)标记为“未知”

1 Introduction

领域适应(DA)通过利用来自相关领域的标记数据,缓解了深度学习中对标记数据的需求。大多数数据挖掘方法都在一定程度上约束了源标签集和目标标签集,这在复杂的实际场景中很容易被违反。例如,我们可以访问带有注释属性的分子数据。然而,在预测未知分子时,我们面临两个挑战:(1)支架等分子结构可能在训练集和测试集之间变化,导致大域偏移;(2)一些分子具有我们数据集中从未存在过的属性值,如未知毒性,导致类别转移。为了应对这些挑战,提出了通用域适配,以消除所有标签集约束。

预测未知分子的挑战
① 某些分子结构可能会在训练集和测试集之间变化,导致较大的域偏移
②一些分子具有数据集中从未存在过的属性值,导致类别偏移

在这里插入图片描述
fig.1(a)UniDA的设置。共有3个公共类,2个源私有类和2个目标私有类。红色×表示公开类“微波炉”很容易误划为“电脑”。(b)per-class和H-score准确度的比较。假设每个类别的样本量相等。公共类的分类准确率为80%,开放类的准确率为50%。

如图1(a)所示,在UniDA中,给定任何已标记的源域和未标记的目标域,如果目标数据属于公共标签集,我们需要对其进行正确分类,否则标记为“未知”。UniDA提出了两个技术挑战:(1)仍然需要分布匹配,但应限制在公共标签集内;(2)作为一个新的挑战,我们需要在没有任何目标标记数据或先验知识的情况下检测目标开放类的数据。 检测开放类是UniDA的关键,因为它可以直接解决第二个挑战,如果它被解决,第一个挑战可以通过移除开放类数据和执行部分域自适应方法来轻松解决。

通用适应网络(UAN) 通过基于不确定性和领域相似性量化每个样本的可迁移性来应对挑战。然而,正如我们在第3.1节中所分析的,可迁移性有两个缺点。首先,他们使用熵来度量不确定性,使用辅助领域分类器来度量领域相似性。熵对于不确定和尖锐的预测缺乏可辨别性,尤其是在有大量类别的情况下。辅助领域分类器的预测大多过于自信,如图4(b)所示。第二,未校准的预测使得可迁移性不可靠。因此,UAN无法清楚地发现开放类。这种失败被UAN所使用的per-class精度所掩盖,如图1(b)所示,过度集中于公共标签集,尤其是在大规模的类中。如何检测开放类以及如何评价UniDA,仍然是未解决的问题。

在这篇文章中,我们提出了一种新的测量方法来量化每个样本的可迁移性。我们在两个方面提高了以往工作的可迁移性。
1)我们设计了一种新的不确定性测量方法,用一致性和置信度来补偿熵,以弥补处理特定预测的能力不足;
2)用于不确定性计算的多分类器架构自然地形成一个集成,这是最适合于域移位设置的校准方法。新的可传递性可以更准确地估计不确定性,并通过不确定性更清晰地区分不同的样本,提高了开放类检测的准确性。此外,我们还提出了一种新的评价指标——H-score,作为公共标签集上的准确度和将目标私有标签集中的数据标记为“未知”的准确度的调和均值。如图1(b)所示,只有当公共和私有标签集中的目标数据都被准确分类时,新标准才是高的。

本文的主要贡献是:
(1)强调了对开放类进行检测的重要性。我们提出了具有由熵、一致性和置信度组成的新的可迁移性的校准多重不确定性(CMU)。这三个不确定性是互补的,可以清楚地区分不同程度的不确定性,并通过多个分类器进行良好的校准,从而更清楚地将目标样本与公共类和开放类区分开来。
(2)我们指出,UAN使用的评估指标:per-class准确性,对普通类有很大偏差,但未能测试检测开放类的能力,尤其是当普通类的数量很大时。我们设计了一个新的评估协议:H-score,作为目标公共数据准确性和私有数据准确性的调和平均值。它评估对普通类别样本进行分类和过滤开放类别样本的平衡能力。
(3)我们在工发组织基准上进行了实验。实证结果表明,CMU在所有评价指标上优于UAN和其他数据挖掘设置的方法,尤其是在H分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值