知识图谱-高度异构信息空间中实体解析的阻塞框架

文献题目:A Blocking Framework for Entity Resolution in Highly Heterogeneous Information Spaces
文献地址:查看文献
由于水平有限,大部分是直接机翻,若有不当之处烦请指出

Abstract

在高度异构、嘈杂、用户生成实体集合的实体解析(ER)环境中,几乎所有的块构建方法都使用冗余来实现高效率。然而,这种做法会导致大量的两两比较,从而对效率产生负面影响。现有的块处理策略旨在在不影响效率的情况下放弃不必要的比较。在本文中,我们通过一个由两个正交层组成的新框架对高度异构信息空间(HHIS)上的clean-clean ER(固有的二次任务)的阻塞方法进行了系统化:有效性层包含了构建具有小概率错过匹配的重叠块的方法;效率层包括各种各样的技术,这些技术显著地限制了所需的成对比较次数,对检测到的重复次数具有可控的影响。我们将在HHIS环境中创建和处理块的所有相关方法映射到我们的框架中,并另外提出了两种新技术:属性聚类阻塞和比较调度。我们在两个大规模、真实的数据集上评估每个层和方法的性能,并验证它们所实现的效率和有效性之间的优秀平衡。

1.Introduction

由于企业和组织中信息的分布式生产,自动从原始数据中提取信息的能力和兴趣的增强,在过去的几年里,全球数字信息的数量以每年30%的速度增长。以及来自世界各地的个人用户通过Web 2.0工具提供的有价值的信息。这些因素的综合作用产生了高度异构的信息空间,表现为数据空间和数据网络

HHIS的主要特点是:1)非结构化数据:HHIS主要由半结构化数据组成,松散地绑定到丰富的模式,即使描述相同的实体类型。2)高水平的噪音:它们的信息不完整,因为用户生成的部分包含缺失或不一致的数据,以及提取错误。3)大规模:参与HHIS的用户相当多,在Web 2.0平台的内容上呈现指数增长,如Wikipedia。

为了充分利用创建和收集海量HHIS的投入,最近提出了关联数据愿景,倡导统一整合相关资源。这个大规模集成过程的核心部分是实体解析(ER),这是一个自动识别属于相同现实实体的概要文件集的过程。

在HHIS的上下文中,ER有两种不同的形式:dirty ER,即输入包含单个实体集合;clean-clean ER,即检测两个大型实体之间的匹配实体对的过程,异构的,单独干净的(即无重复的),但重叠的实体集合。作为前者的一个例子,考虑在搜索引擎的索引中识别重复网页的任务;在后一种情况下,合并个人消费产品的任务落在了一起,这些产品来自不同的在线商店,因此它们的描述和专有标识符略有不同。在这两个版本的ER中,cleaner构成了一个更具体的问题,主要通过依赖于输入数据集合的清洁性的专门技术来解决。另一方面,dirty ER是一项更普遍的任务,它与clean-clean ER有许多共同的挑战。出于这个原因,我们在下面专门关注clean-clean ER,并在必要时强调处理dirty ER的通用技术。

Clean-clean ER构成了一个固有的二次任务(一个集合的每个实体都必须与另一个集合的所有实体进行比较)。为了扩展到大量的数据,使用了近似技术。通过交易-在有限的范围内-效率(即发现重复的百分比),这些显著提高了效率(即减少了所需的两两比较次数)。这些技术中最突出的是数据块,它将相似的实体聚集成块,并只在同一块中的实体之间进行比较。这个领域有很多技术,但是绝大多数都假定输入数据及其定性特征都是提前知道的。这一要求对于根据实体的值选择最可靠、最独特的属性来将实体分配给块是至关重要的。

在这里插入图片描述

然而,我们注意到传统的阻塞技术与上述HHIS的固有特性是不兼容的,使得这些方法中的大多数不适用于我们的问题。为了说明HHIS的特性,考虑图1a中所示的实体集合e1和e2。根据两者的相似值,我们推断e1的p1和p2分别与E2的p3和p4匹配。然而,每个规范属性名在每个配置文件中都有不同的形式;例如,一个人的名字在p1中显示为“全名”,在p2中显示为“姓名”,在p3中显示为“给定姓名”。标记样式的值(例如p4的名称)进一步加剧了这种情况,p4与任何属性名称都没有关联。传统的阻塞方法不能在如此高异构性的上下文中形成任何块,只能在模式匹配方法之上应用。虽然这个任务在我们的例子中看起来很简单,但在真实的HHIS中是不现实的;仅谷歌base1就包含100,000个不同的模式,对应于10,000个实体类型。

在这些设置中,块构建方法通常依赖于冗余来实现高效率:每个实体被放置在多个块中,这极大地限制了错过匹配的可能性。以令牌阻塞方法为例,如图1b所示;每个创建的块都对应于一个标记,并包含具有该标记的所有实体,而不考虑相关的属性名。然而,冗余是以低效率为代价的,因为它会产生大量不必要的比较,从而产生重叠的块。在我们的例子中,我们观察到块“Gray”、“programmer”和“91456”包含了对p1-p3和p2-p4。块“91456”还涉及到两个非匹配对p1-p4和p2-p3。这样的比较可以在不丢失任何重复的情况下被丢弃,从而在不付出任何代价的情况下提高效率。这实际上是许多块处理技术的目的。

为了在HHIS上清除ER,提出了几种阻塞方法。其中一些是竞争性的(即服务于相同的需求),而另一些是互补的,因为它们的结合导致更好的表现。然而,目前还没有系统的研究这些方法之间的相互关系。

在本文中,我们提出了一个新的框架来组织现有的阻塞方法,并覆盖了上述的差距。该框架由两个正交层组成,每个层针对不同的性能需求。有效性层包含在HHIS上下文中创建健壮块的方法,旨在在至少一个公共块中放置重复实体(这直接转化为有效性,因为在同一块中的实体将相互比较;因此,将发现重复的实体)。这一层的主要技术是令牌阻塞,它不需要输入数据的背景知识,完全不考虑任何模式信息。在本研究中,我们也提出了属性聚类阻塞,通过将具有相似值的属性名划分到不重叠的聚类中来创建性能更高的块。

效率层旨在有效地处理块,丢弃它们包含的重复和不必要的比较。为了以一种明确的方式描述它们的功能,我们引入了一种新颖的2D分类法,根据它们目标的比较类型和它们的功能粒度(即,它们是在块的粗层次上操作还是在个体比较的细层次上操作)对效率技术进行分类。我们还提出了一种新的技术,称为比较调度,它指定了个体比较的处理顺序,从而增加了多余的比较的数量,而这些多余的比较在效率上没有损失。

我们框架的目标是帮助从业者将互补的阻塞方法结合到高性能的ER解决方案中,这些解决方案可以方便地针对每个应用程序的特定设置和需求进行定制(见4.1节)。它还促进和指导新方法的发展,专门用于特定类型的比较,以产生更高的效率增强。在这方面,我们在第3.2节给出的度量空间是一个特别的实用工具,它可以预先估计阻塞方法的性能。我们的框架是通用的,因为它容纳了在HHIS之上为clean-clean ER创建和处理块的现有方法,并且可以合并新方法。为此,我们已经公开发布了它的实施,以及我们的实验研究数据。尽管我们的框架关注的是ER的一个特定的子任务,但它所传达的大部分思想也可以应用于ER问题的其他版本。

我们的主要贡献如下:

  • 我们在HHIS上定义了一个基于块的清洁ER框架,该框架由两个正交层组成。它具有通用性和灵活性,可以适应各种方法,这些方法结合起来形成了全面的、高性能的ER方法。
  • 我们解释了在我们的框架中加入新的阻塞方法。为此,我们引入了属性聚类阻塞,这是一种新颖的块构建方法,它与令牌阻塞同样有效,但冗余度显著降低,效率更高。我们还介绍了比较调度,一种新的块处理方法,通过指定所有个体比较的处理顺序,以便首先检测到重复,从而在效率上无成本地提高效率。
  • 我们报告了两个大型真实数据集的评估结果,这两个数据集总共包含超过300万个实体。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在MATLAB,NURBS(非均匀有理B样条)是一种强大的数学工具,用于表示和处理复杂的曲线和曲面。NURBS在计算机图形学、CAD(计算机辅助设计)、CAM(计算机辅助制造)等领域有着广泛的应用。下面将详细探讨MATLABNURBS的绘制方法以及相关知识点。 我们需要理解NURBS的基本概念。NURBS是B样条(B-Spline)的一种扩展,其特殊之处在于引入了权重因子,使得曲线和曲面可以在不均匀的参数空间进行平滑插值。这种灵活性使得NURBS在处理非均匀数据时尤为有效。 在MATLAB,可以使用`nurbs`函数创建NURBS对象,它接受控制点、权值、 knot向量等参数。控制点定义了NURBS曲线的基本形状,而knot向量决定了曲线的平滑度和分布。权值则影响曲线通过控制点的方式,大的权值会使曲线更靠近该点。 例如,我们可以使用以下代码创建一个简单的NURBS曲线: ```matlab % 定义控制点 controlPoints = [1 1; 2 2; 3 1; 4 2]; % 定义knot向量 knotVector = [0 0 0 1 1 1]; % 定义权值(默认为1,如果未指定) weights = ones(size(controlPoints,1),1); % 创建NURBS对象 nurbsObj = nurbs(controlPoints, weights, knotVector); ``` 然后,我们可以用`plot`函数来绘制NURBS曲线: ```matlab plot(nurbsObj); grid on; ``` `data_example.mat`可能包含了一个示例的NURBS数据集,其可能包含了控制点坐标、权值和knot向量。我们可以通过加载这个数据文件来进一步研究NURBS的绘制: ```matlab load('data_example.mat'); % 加载数据 nurbsData = struct2cell(data_example); % 转换为cell数组 % 解析数据 controlPoints = nurbsData{1}; weights = nurbsData{2}; knotVector = nurbsData{3}; % 创建并绘制NURBS曲线 nurbsObj = nurbs(controlPoints, weights, knotVector); plot(nurbsObj); grid on; ``` MATLAB还提供了其他与NURBS相关的函数,如`evalnurbs`用于评估NURBS曲线上的点,`isoparm`用于生成NURBS曲面上的等参线,以及`isocurve`用于在NURBS曲面上提取特定参数值的曲线。这些工具对于分析和操作NURBS对象非常有用。 MATLAB的NURBS功能允许用户方便地创建、编辑和可视化复杂的曲线和曲面。通过对控制点、knot向量和权值的调整,可以精确地控制NURBS的形状和行为,从而满足各种工程和设计需求。通过深入理解和熟练掌握这些工具,可以在MATLAB环境实现高效的NURBS建模和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值