《实体解析与信息质量》-1.2.3.实体引用解析

实体引用解析

实体引用解析所关注的是这样一个决策:两个引用实例是否等价,它们是否指向同一个实体?这个决策通常是通过引用的身份属性值的相似程度来做出的, 这样的做法被称为匹配(Matching)过程。当不同引用被断定为等价时,链接操作为他们赋予相同的链值

匹配(Matching)链接(Linking)大概是ER世界中最容易被混淆的两个术语了。链接是通过将不同引用赋予相同的通用标志符链值,来表明两个引用的等价性。链接代表了ER决策的输出。另一方面,对引用进行匹配操作,指的则是利用某种算法来计算一组属性值的相似程度,如果它们之间的相似程度达到了一个预定义的阀值,便认为他们是匹配的。而这些引用则被称为匹配引用

另一个经常造成混淆的实体解析术语是重复,常见的说法包括重复记录或是记录重复。某种意义上,重复代表匹配的终极状态,亦即两个引用完全一样。然而在另一些场景中,重复也可以表示不同但十分近似(近似匹配)的不同引用,甚至有些情况下,重复引用直接表示等价引用的含义(Naumann,Herschel,2010)。

为了避免混淆,在本书接下来的描述里,我们将会用等价实体引用来表示指向同一个实体的不同引用,用匹配实体引用来表示属性值相似度达到指定阀值的引用,我们会避免使用术语重复引用以及去重

许多作者,即使是那些用记录匹配记录重复这些术语来描述实体解析的,也常常将这些术语应用到属性相似度这样的匹配的概念上来,甚至会将这些术语用作表述等价引用。 这样做的麻烦在于,在一些上下文切换的环境中,你很难区别这些含义上的细微变化。即使在具有开创性意义,并以严谨著称的Fellegiand Sunter(1969)的成果中,也会出现关于“应当匹配而没有匹配的记录”(译者:根据本文作者的定义,这个问题应该是“等价却不匹配的记录”)这样的问题的讨论。更有甚者,提出像真匹配这样的概念来形容列表A与B的一个笛卡尔积的子集M,其中M包含了所有匹配引用。然而,从本文的角度来看,M所代表的A×B的成对引用乃是等价引用,而非匹配引用。

在几乎所有的ER场景中,都会出现本应被赋予相同的链值的等价引用,却无法互相匹配的情况。又或者是,匹配的引用被赋予了相同的链值,但实际上它们并不等价。

举例来说,假设有名客户本来叫做MaryJohns,住在OakStreet。后来她嫁给了叫做JohnSmith的人,并更名为MarySmith,她还搬到了丈夫位于ElmStreet的家里。这中情况下,即使MaryJohns@Oak Street与MarySmith@Elm Street无法匹配姓名或是地址,但实际上,两者是指向了同一个实体。

ER 原则 #2 ER的终极目的是链接等价引用,而非寻找匹配引用。

通过链接操作可以在一组实体引用中创建等价关系,这点乃是实体解析的代数模型(Talburt,Wang, Hess, Kuo, 2007)的基石。如果将实体解析理解为一个决策的过程,那么链接便将这个过程具体化为一个问题的答案:即两个引用是否等价。 不可否认,匹配的确是这个过程中一个非常重要的工具,但并非唯一的工具。两个引用互相匹配固然在该决策过程中是个一个重要的因素,但并非总是决定性因素。ER系统的基础依旧是链接操作:

ER的基本法则:当且仅当两个引用等价时,它们才会被互相链接。

匹配引用和等价引用的区别

设S为实体引用集合,S×S表示S对自身的笛卡尔积,即第一个对象和第二个对象均属于S的所有可能的有序对。给定一个匹配算法及预定义的阀值,可以将S×S中的每个有序引用对进行匹配判定。设M为所有匹配的有序引用对的集合,那么M必然是S×S的一个子集。同样的,假定我们有办法找出所有的等价有序引用对,它的集合E显然也是S×S的子集。在许多大规模的ER应用中,E和M通常是不一样的。图1.5展示了E和M之间的互相关联关系。

图1.5匹配引用和等价引用

集合E代表的是实体解析的期望结果,而集合M代表的仅仅是匹配结果。E和M之间的交集度体现了利用匹配操作对于ER过程的有效性。E和M之间的交集度越高,代表着该匹配操作越有效。在某些特定情况下,匹配操作的准确性非常之高,体现在图上,便是E和M的几乎完全重合。

在ER世界中,我们用解析这个术语来表示判断两个实体引用是否等价的过程。因此,也可以将图1.5理解为决策过程与正确的决策结果之间的关系。假定M为一个判定两个实体是否等价的操作,这个操作可以是匹配,也可以是其它办法。E仍然表示真正等价的有序对集合。那么,我们也可以这样解释图1.5中的各个集合:

·        M ? E为truepositive结果集

·        S×S – ( M ? E ) 为true negative结果集

·        M – E 为falsepositive结果集,或者称为误报结果集

·        E – M 为falsenegative结果集, 或者称为漏报结果集。

Truepositive结果集和Truenegative结果集合并就是真结果集(正确判断的结果集)。而Falsepositive结果集和Falsenegative结果集合并为假结果集(判断错误的结果集)。表1.2总结归纳了这些术语:

Table 1.2 Classification of Process Decision Outcomes

 

Decision Should Be Yes

Decision Should Be No

Decision is yes

True positive

False positive

Decision is no

False negative

True negative

 

除了实体解析领域,在数据挖掘和信息获取领域,我们也采用这些术语。不过在推断统计学中,falsepositive被称为一类决策错误,false negative被称为二类决策错误(Fisher,et al., 2006)。

False Negative问题

在绝大多数ER上下文中,falsenegative通常都是比falsepositive更大的一个问题,这显然是由于E集合的未知性。当然,正是因为E集合的未知,ER过程才有存在的价值。实际当中&#x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值