利用集群和传递性降低众包实体解析的成本

Using Clustering and Transitivity to Reduce the Costs of Crowdsourced Entity Resolution

作者

Lisha Guo
Beihang University
guols@act.buaa.edu.cn

Hailong Sun
Beihang University
sunhl@act.buaa.edu.cn

Xudong Liu
Beihang University
liuxd@act.buaa.edu.cn

摘要

实体解析(Entity Resolution,ER)是识别代表同一实体的数据记录的过程。ER是软件和应用领域中一个非常重要的问题。例如,使用ER检测重复的bug报告可以大大节省开发工作。在大多数情况下,由于ER中涉及复杂的语义分析,人类可以比计算机算法执行得更好。有鉴于此,众包已成功融入ER,以提高其准确性。然而,与计算机方法相比,众包成本更高。在这项工作中,我们提出了一种方法来减少问题的数量,提出了聚类和传递性分析。首先,通过对两个相似性阈值的适当选择,利用无监督机器学习,在一定的相似性度量基础上将记录聚类为多个聚类。这样,我们就可以删掉记录对,而无需询问任何人。其次,我们设计了一个集群合并算法,该算法能够有效地选择众包问题,并利用数据传递性检测同一实体对应的跨集群记录。最后,我们对两个真实数据集进行了广泛的实验,结果表明,我们的方法在产生的成本和F1度量方面明显优于现有的方法。

关键词:众包、软件、实体解析、集群、传递性

介绍

实体解析(ER)是从一个或多个数据源中查找引用同一实体的记录的任务。一方面,通常会发现许多引用同一实体的记录并不完全相同[12]。另一方面,也存在一些看起来相似但实际上指不同实体的记录。在这些情况下,ER任务对计算机来说是非常具有挑战性的,但对人类来说更容易。借助众包平台,我们可以方便地将人力资源工作带入ER流程中[14]。由于人类的计算是昂贵和耗时的,所以向人类提出所有成对的问题是不可行的。本文提出了一种基于聚类和传递性的方法来减少工人的问题对数量。

我们可以利用传递性省略一些多余的问题对。例如,如果a和b指同一实体,b和c指同一(不同)实体,我们可以通过传递性推断a和c指同一(不同)实体,而不要求工人贴标签。此外,我们发现适当的标签顺序有助于减少因传递性而产生的配对数量。假设我们有三对候选标签{(a,b),(b,c),(a,c)}。实际上,只有A和B指的是同一个实体。如果我们按照{(a,b),(a,c),(b,c)}的顺序标注问题对,作为上述传递性,我们只需要标记前两对,并可以推断b和c不指同一个实体。但是,如果标签的顺序变为{(a,c),(b,c),(a,b)},我们需要标记所有三个候选对。

在我们的方法中,每个记录最初表示一个集群。首先,通过对两个相似性阈值的适当选择,利用无监督机器学习,在一定的相似性度量基础上将记录聚类为多个聚类。这样,我们就可以删掉记录对,而无需询问任何人。然后,在基于传递性的聚类过程中,引入人工来决定是否合并任何两个聚类。此外,我们还设计了一个算法,从候选的集群对中选择最佳的记录对,供人类工人标记。

总之,我们的贡献如下:

  • 我们提出了一种混合的ER人机方法,将人类工人引入到集群的进程中。
  • 我们提出了传递性的约束条件,并证明利用传递关系来标记候选对可以降低众包实体解析的成本。
  • 我们发现聚类过程的顺序对需要标记的记录对数量有显著影响,并进一步提出了一个最佳的聚类顺序。
  • 我们设计了一个算法来选择最佳候选对,以供人类工作者决定是否合并集群对。

本文的其余部分组织如下:第2节描述了传递性及其引理。然后,我们提出了一种基于传递性和聚类的算法,以减少第3节中详细描述的标签候选对的数量。接下来,实验结果将在第4节中介绍。最后,我们回顾了第5节中的相关工作,并在第6节中介绍了我们的结论和未来的工作。

准备工作

在本节中,我们首先回顾了传统的基于机器的ER技术,然后描述了相似性和匹配可能性之间的关系。其次,我们建立了传递关系,并提出了传递性的引理。最后,我们简单地证明了这个引理。

相似性估计

传统的基于机器的实体解析技术通常基于相似性估计或机器学习[12]。利用相似度估计技术,将相似度高于给定阈值的记录对视为同一实体。在机器学习领域,记录对被表示为一个由每个属性的相似性组成的向量,而ER成为一个典型的两类分类问题[3]。虽然有许多基于机器的算法来估计记录[3,4,11]之间的相似性,但它们的准确性仍然存在问题。通过将人类工人引入ER过程,提出了一种基于聚类和传递性的方法来减少标签问题的数量,获得更准确的结果。为了利用传递性来减少候选对的数量,聚类过程的顺序至关重要。正如我们之前所讨论的,我们应该优先将更有可能成为同一实体的记录进行集群。从直观上看,相似性与匹配可能性之间似乎存在弱单调性。记录之间的相似性值越高,匹配的可能性就越高。

传递性

在本节中,我们将阐述传递性,并讨论如何利用ER的这个重要约束来减少集群过程中用于标记的对的数量。首先,从正负两个角度给出了传递性的形式化定义。

正传递性:如果R1与R2匹配,R2与R3匹配,则R1与R3匹配。

负传递性:如果R1与R2匹配,R2与R3不匹配,则R1与R3不匹配。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值