文献题目:A Blocking Framework for Entity Resolution in Highly Heterogeneous Information Spaces
文献地址:查看文献
由于水平有限,大部分是直接机翻,若有不当之处烦请指出
Abstract
在高度异构、嘈杂、用户生成实体集合的实体解析(ER)环境中,几乎所有的块构建方法都使用冗余来实现高效率。然而,这种做法会导致大量的两两比较,从而对效率产生负面影响。现有的块处理策略旨在在不影响效率的情况下放弃不必要的比较。在本文中,我们通过一个由两个正交层组成的新框架对高度异构信息空间(HHIS)上的clean-clean ER(固有的二次任务)的阻塞方法进行了系统化:有效性层包含了构建具有小概率错过匹配的重叠块的方法;效率层包括各种各样的技术,这些技术显著地限制了所需的成对比较次数,对检测到的重复次数具有可控的影响。我们将在HHIS环境中创建和处理块的所有相关方法映射到我们的框架中,并另外提出了两种新技术:属性聚类阻塞和比较调度。我们在两个大规模、真实的数据集上评估每个层和方法的性能,并验证它们所实现的效率和有效性之间的优秀平衡。
1.Introduction
由于企业和组织中信息的分布式生产,自动从原始数据中提取信息的能力和兴趣的增强,在过去的几年里,全球数字信息的数量以每年30%的速度增长。以及来自世界各地的个人用户通过Web 2.0工具提供的有价值的信息。这些因素的综合作用产生了高度异构的信息空间,表现为数据空间和数据网络
HHIS的主要特点是:1)非结构化数据:HHIS主要由半结构化数据组成,松散地绑定到丰富的模式,即使描述相同的实体类型。2)高水平的噪音:它们的信息不完整,因为用户生成的部分包含缺失或不一致的数据,以及提取错误。3)大规模:参与HHIS的用户相当多,在Web 2.0平台的内容上呈现指数增长,如Wikipedia。
为了充分利用创建和收集海量HHIS的投入,最近提出了关联数据愿景,倡导统一整合相关资源。这个大规模集成过程的核心部分是实体解析(ER),这是一个自动识别属于相同现实实体的概要文件集的过程。
在HHIS的上下文中,ER有两种不同的形式:dirty ER,即输入包含单个实体集合;clean-clean ER,即检测两个大型实体之间的匹配实体对的过程,异构的,单独干净的(即无重复的),但重叠的实体集合。作为前者的一个例子,考虑在搜索引擎的索引中识别重复网页的任务;在后一种情况下,合并个人消费产品的任务落在了一起,这些产品来自不同的在线商店,因此它们的描述和专有标识符略有不同。在这两个版本的ER中,cleaner构成了一个更具体的问题,主要通过依赖于输入数据集合的清洁性的专门技术来解决。另一方面,dirty ER是一项更普遍的任务,它与clean-clean ER有许多共同的挑战。出于这个原因,我们在下面专门关注clean-clean ER,并在必要时强调处理dirty ER的通用技术。
Clean-clean ER构成了一个固有的二次任务(一个集合的每个实体都必须与另一个集合的所有实体进行比较)。为了扩展到大量的数据,使用了近似技术。通过交易-在有限的范围内-效率(即发现重复的百分比),这些显著提高了效率(即减少了所需的两两比较次数)。这些技术中最突出的是数据块,它将相似的实体聚集成块,并只在同一块中的实体之间进行比较。这个领域有很多技术,但是绝大多数都假定输入数据及其定性特征都是提前知道的。这一要求对于根据实体的值选择最可靠、最独特的属性来将实体分配给块是至关重要的。
然而,我们注意到传统的阻塞技术与上述HHIS的固有特性是不兼容的,使得这些方法中的大多数不适用于我们的问题。为了说明HHIS的特性,考虑图1a中所示的实体集合e1和e2。根据两者的相似值,我们推断e1的p1和p2分别与E2的p3和p4匹配。然而,每个规范属性名在每个配置文件中都有不同的形式;例如,一个人的名字在p1中显示为“全名”,在p2中显示为“姓名”,在p3中显示为“给定姓名”。标记样式的值(例如p4的名称)进一步加剧了这种情况,p4与任何属性名称都没有关联。传统的阻塞方法不能在如此高异构性的上下文中形成任何块,只能在模式匹配方法之上应用。虽然这个任务在我们的例子中看起来很简单,但在真实的HHIS中是不现实的;仅谷歌base1就包含100,000个不同的模式,对应于10,000个实体类型。
在这些设置中,块构建方法通常依赖于冗余来实现高效率:每个实体被放置在多个块中,这极大地限制了错过匹配的可能性。以令牌阻塞方法为例,如图1b所示;每个创建的块都对应于一个标记,并包含具有该标记的所有实体,而不考虑相关的属性名。然而,冗余是以低效率为代价的,因为它会产生大量不必要的比较,从而产生重叠的块。在我们的例子中,我们观察到块“Gray”、“programmer”和“91456”包含了对p1-p3和p2-p4。块“91456”还涉及到两个非匹配对p1-p4和p2-p3。这样的比较可以在不丢失任何重复的情况下被丢弃,从而在不付出任何代价的情况下提高效率。这实际上是许多块处理技术的目的。
为了在HHIS上清除ER,提出了几种阻塞方法。其中一些是竞争性的(即服务于相同的需求),而另一些是互补的,因为它们的结合导致更好的表现。然而,目前还没有系统的研究这些方法之间的相互关系。
在本文中,我们提出了一个新的框架来组织现有的阻塞方法,并覆盖了上述的差距。该框架由两个正交层组成,每个层针对不同的性能需求。有效性层包含在HHIS上下文中创建健壮块的方法,旨在在至少一个公共块中放置重复实体(这直接转化为有效性,因为在同一块中的实体将相互比较;因此,将发现重复的实体)。这一层的主要技术是令牌阻塞,它不需要输入数据的背景知识,完全不考虑任何模式信息。在本研究中,我们也提出了属性聚类阻塞,通过将具有相似值的属性名划分到不重叠的聚类中来创建性能更高的块。
效率层旨在有效地处理块,丢弃它们包含的重复和不必要的比较。为了以一种明确的方式描述它们的功能,我们引入了一种新颖的2D分类法,根据它们目标的比较类型和它们的功能粒度(即,它们是在块的粗层次上操作还是在个体比较的细层次上操作)对效率技术进行分类。我们还提出了一种新的技术,称为比较调度,它指定了个体比较的处理顺序,从而增加了多余的比较的数量,而这些多余的比较在效率上没有损失。
我们框架的目标是帮助从业者将互补的阻塞方法结合到高性能的ER解决方案中,这些解决方案可以方便地针对每个应用程序的特定设置和需求进行定制(见4.1节)。它还促进和指导新方法的发展,专门用于特定类型的比较,以产生更高的效率增强。在这方面,我们在第3.2节给出的度量空间是一个特别的实用工具,它可以预先估计阻塞方法的性能。我们的框架是通用的,因为它容纳了在HHIS之上为clean-clean ER创建和处理块的现有方法,并且可以合并新方法。为此,我们已经公开发布了它的实施,以及我们的实验研究数据。尽管我们的框架关注的是ER的一个特定的子任务,但它所传达的大部分思想也可以应用于ER问题的其他版本。
我们的主要贡献如下:
- 我们在HHIS上定义了一个基于块的清洁ER框架,该框架由两个正交层组成。它具有通用性和灵活性,可以适应各种方法,这些方法结合起来形成了全面的、高性能的ER方法。
- 我们解释了在我们的框架中加入新的阻塞方法。为此,我们引入了属性聚类阻塞,这是一种新颖的块构建方法,它与令牌阻塞同样有效,但冗余度显著降低,效率更高。我们还介绍了比较调度,一种新的块处理方法,通过指定所有个体比较的处理顺序,以便首先检测到重复,从而在效率上无成本地提高效率。
- 我们报告了两个大型真实数据集的评估结果,这两个数据集总共包含超过300万个实体。