利用集群和传递性降低众包实体解析的成本

最新推荐文章于 2020-11-25 21:28:17 发布

O大叔Tz

最新推荐文章于 2020-11-25 21:28:17 发布

阅读量326

点赞数

分类专栏：论文翻译

论文翻译专栏收录该内容

20 篇文章 4 订阅

订阅专栏

Using Clustering and Transitivity to Reduce the Costs of Crowdsourced Entity Resolution

作者
摘要
介绍
准备工作
- 相似性估计
- 传递性

作者

Lisha Guo
Beihang University
guols@act.buaa.edu.cn

Hailong Sun
Beihang University
sunhl@act.buaa.edu.cn

Xudong Liu
Beihang University
liuxd@act.buaa.edu.cn

摘要

实体解析（Entity Resolution，ER）是识别代表同一实体的数据记录的过程。ER是软件和应用领域中一个非常重要的问题。例如，使用ER检测重复的bug报告可以大大节省开发工作。在大多数情况下，由于ER中涉及复杂的语义分析，人类可以比计算机算法执行得更好。有鉴于此，众包已成功融入ER，以提高其准确性。然而，与计算机方法相比，众包成本更高。在这项工作中，我们提出了一种方法来减少问题的数量，提出了聚类和传递性分析。首先，通过对两个相似性阈值的适当选择，利用无监督机器学习，在一定的相似性度量基础上将记录聚类为多个聚类。这样，我们就可以删掉记录对，而无需询问任何人。其次，我们设计了一个集群合并算法，该算法能够有效地选择众包问题，并利用数据传递性检测同一实体对应的跨集群记录。最后，我们对两个真实数据集进行了广泛的实验，结果表明，我们的方法在产生的成本和F1度量方面明显优于现有的方法。

关键词：众包、软件、实体解析、集群、传递性

介绍

实体解析（ER）是从一个或多个数据源中查找引用同一实体的记录的任务。一方面，通常会发现许多引用同一实体的记录并不完全相同[12]。另一方面，也存在一些看起来相似但实际上指不同实体的记录。在这些情况下，ER任务对计算机来说是非常具有挑战性的，但对人类来说更容易。借助众包平台，我们可以方便地将人力资源工作带入ER流程中[14]。由于人类的计算是昂贵和耗时的，所以向人类提出所有成对的问题是不可行的。本文提出了一种基于聚类和传递性的方法来减少工人的问题对数量。

我们可以利用传递性省略一些多余的问题对。例如，如果a和b指同一实体，b和c指同一（不同）实体，我们可以通过传递性推断a和c指同一（不同）实体，而不要求工人贴标签。此外，我们发现适当的标签顺序有助于减少因传递性而产生的配对数量。假设我们有三对候选标签{（a，b），（b，c），（a，c）}。实际上，只有A和B指的是同一个实体。如果我们按照{（a，b），（a，c），（b，c）}的顺序标注问题对，作为上述传递性，我们只需要标记前两对，并可以推断b和c不指同一个实体。但是，如果标签的顺序变为{（a，c），（b，c），（a，b）}，我们需要标记所有三个候选对。

在我们的方法中，每个记录最初表示一个集群。首先，通过对两个相似性阈值的适当选择，利用无监督机器学习，在一定的相似性度量基础上将记录聚类为多个聚类。这样，我们就可以删掉记录对，而无需询问任何人。然后，在基于传递性的聚类过程中，引入人工来决定是否合并任何两个聚类。此外，我们还设计了一个算法，从候选的集群对中选择最佳的记录对，供人类工人标记。

总之，我们的贡献如下：

我们提出了一种混合的ER人机方法，将人类工人引入到集群的进程中。
我们提出了传递性的约束条件，并证明利用传递关系来标记候选对可以降低众包实体解析的成本。
我们发现聚类过程的顺序对需要标记的记录对数量有显著影响，并进一步提出了一个最佳的聚类顺序。
我们设计了一个算法来选择最佳候选对，以供人类工作者决定是否合并集群对。

本文的其余部分组织如下：第2节描述了传递性及其引理。然后，我们提出了一种基于传递性和聚类的算法，以减少第3节中详细描述的标签候选对的数量。接下来，实验结果将在第4节中介绍。最后，我们回顾了第5节中的相关工作，并在第6节中介绍了我们的结论和未来的工作。

准备工作

在本节中，我们首先回顾了传统的基于机器的ER技术，然后描述了相似性和匹配可能性之间的关系。其次，我们建立了传递关系，并提出了传递性的引理。最后，我们简单地证明了这个引理。

相似性估计

传统的基于机器的实体解析技术通常基于相似性估计或机器学习[12]。利用相似度估计技术，将相似度高于给定阈值的记录对视为同一实体。在机器学习领域，记录对被表示为一个由每个属性的相似性组成的向量，而ER成为一个典型的两类分类问题[3]。虽然有许多基于机器的算法来估计记录[3，4，11]之间的相似性，但它们的准确性仍然存在问题。通过将人类工人引入ER过程，提出了一种基于聚类和传递性的方法来减少标签问题的数量，获得更准确的结果。为了利用传递性来减少候选对的数量，聚类过程的顺序至关重要。正如我们之前所讨论的，我们应该优先将更有可能成为同一实体的记录进行集群。从直观上看，相似性与匹配可能性之间似乎存在弱单调性。记录之间的相似性值越高，匹配的可能性就越高。

传递性

在本节中，我们将阐述传递性，并讨论如何利用ER的这个重要约束来减少集群过程中用于标记的对的数量。首先，从正负两个角度给出了传递性的形式化定义。

正传递性：如果R1与R2匹配，R2与R3匹配，则R1与R3匹配。

负传递性：如果R1与R2匹配，R2与R3不匹配，则R1与R3不匹配。

O大叔Tz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用集群和传递性降低众包实体解析的成本

Using Clustering and Transitivity to Reduce the Costs of Crowdsourced Entity Resolution摘要介绍准备工作相似性估计传递性摘要实体解析（Entity Resolution，ER）是识别代表同一实体的数据记录的过程。ER是软件和应用领域中一个非常重要的问题。例如，使用ER检测重复的bug报告可以大大节省开发工作。...
复制链接

扫一扫

专栏目录