《实体解析与信息质量》-1.2.3.实体引用解析

最新推荐文章于 2024-07-18 16:35:38 发布

数据中国

最新推荐文章于 2024-07-18 16:35:38 发布

阅读量1.7k

点赞数

分类专栏：《实体解析与信息质量》数据识别|数据清洗文章标签：实体解析

实体引用解析

实体引用解析所关注的是这样一个决策：两个引用实例是否等价，它们是否指向同一个实体？这个决策通常是通过引用的身份属性值的相似程度来做出的，这样的做法被称为匹配（Matching）过程。当不同引用被断定为等价时，链接操作为他们赋予相同的链值。

匹配(Matching)和链接(Linking)大概是ER世界中最容易被混淆的两个术语了。链接是通过将不同引用赋予相同的通用标志符链值，来表明两个引用的等价性。链接代表了ER决策的输出。另一方面，对引用进行匹配操作，指的则是利用某种算法来计算一组属性值的相似程度，如果它们之间的相似程度达到了一个预定义的阀值，便认为他们是匹配的。而这些引用则被称为匹配引用。

另一个经常造成混淆的实体解析术语是重复，常见的说法包括重复记录或是记录重复。某种意义上，重复代表匹配的终极状态，亦即两个引用完全一样。然而在另一些场景中，重复也可以表示不同但十分近似（近似匹配）的不同引用，甚至有些情况下，重复引用直接表示等价引用的含义（Naumann，Herschel，2010）。

为了避免混淆，在本书接下来的描述里，我们将会用等价实体引用来表示指向同一个实体的不同引用，用匹配实体引用来表示属性值相似度达到指定阀值的引用，我们会避免使用术语重复引用以及去重。

许多作者，即使是那些用记录匹配或记录重复这些术语来描述实体解析的，也常常将这些术语应用到属性相似度这样的匹配的概念上来，甚至会将这些术语用作表述等价引用。这样做的麻烦在于，在一些上下文切换的环境中，你很难区别这些含义上的细微变化。即使在具有开创性意义，并以严谨著称的Fellegiand Sunter（1969）的成果中，也会出现关于“应当匹配而没有匹配的记录”（译者：根据本文作者的定义，这个问题应该是“等价却不匹配的记录”）这样的问题的讨论。更有甚者，提出像真匹配这样的概念，来形容列表A与B的一个笛卡尔积的子集M，其中M包含了所有匹配引用。然而，从本文的角度来看，M所代表的A×B的成对引用乃是等价引用，而非匹配引用。

在几乎所有的ER场景中，都会出现本应被赋予相同的链值的等价引用，却无法互相匹配的情况。又或者是，匹配的引用被赋予了相同的链值，但实际上它们并不等价。

举例来说，假设有名客户本来叫做MaryJohns，住在OakStreet。后来她嫁给了叫做JohnSmith的人，并更名为MarySmith，她还搬到了丈夫位于ElmStreet的家里。这中情况下，即使MaryJohns@Oak Street与MarySmith@Elm Street无法匹配姓名或是地址，但实际上，两者是指向了同一个实体。

ER 原则 #2： ER的终极目的是链接等价引用，而非寻找匹配引用。

通过链接操作可以在一组实体引用中创建等价关系，这点乃是实体解析的代数模型(Talburt,Wang, Hess, Kuo, 2007)的基石。如果将实体解析理解为一个决策的过程，那么链接便将这个过程具体化为一个问题的答案：即两个引用是否等价。不可否认，匹配的确是这个过程中一个非常重要的工具，但并非唯一的工具。两个引用互相匹配固然在该决策过程中是个一个重要的因素，但并非总是决定性因素。ER系统的基础依旧是链接操作：

ER的基本法则：当且仅当两个引用等价时，它们才会被互相链接。

匹配引用和等价引用的区别

设S为实体引用集合，S×S表示S对自身的笛卡尔积，即第一个对象和第二个对象均属于S的所有可能的有序对。给定一个匹配算法及预定义的阀值，可以将S×S中的每个有序引用对进行匹配判定。设M为所有匹配的有序引用对的集合，那么M必然是S×S的一个子集。同样的，假定我们有办法找出所有的等价有序引用对，它的集合E显然也是S×S的子集。在许多大规模的ER应用中，E和M通常是不一样的。图1.5展示了E和M之间的互相关联关系。

图1.5匹配引用和等价引用

集合E代表的是实体解析的期望结果，而集合M代表的仅仅是匹配结果。E和M之间的交集度体现了利用匹配操作对于ER过程的有效性。E和M之间的交集度越高，代表着该匹配操作越有效。在某些特定情况下，匹配操作的准确性非常之高，体现在图上，便是E和M的几乎完全重合。

在ER世界中，我们用解析这个术语来表示判断两个实体引用是否等价的过程。因此，也可以将图1.5理解为决策过程与正确的决策结果之间的关系。假定M为一个判定两个实体是否等价的操作，这个操作可以是匹配，也可以是其它办法。E仍然表示真正等价的有序对集合。那么，我们也可以这样解释图1.5中的各个集合：

· M ？ E为truepositive结果集。

· S×S – ( M ? E ) 为true negative结果集。

· M – E 为falsepositive结果集，或者称为误报结果集。

· E – M 为falsenegative结果集，或者称为漏报结果集。

Truepositive结果集和Truenegative结果集合并就是真结果集（正确判断的结果集）。而Falsepositive结果集和Falsenegative结果集合并为假结果集（判断错误的结果集）。表1.2总结归纳了这些术语：

Table 1.2 Classification of Process Decision Outcomes
	Decision Should Be Yes	Decision Should Be No
Decision is yes	True positive	False positive
Decision is no	False negative	True negative

除了实体解析领域，在数据挖掘和信息获取领域，我们也采用这些术语。不过在推断统计学中，falsepositive被称为一类决策错误，false negative被称为二类决策错误（Fisher,et al., 2006）。

False Negative问题

在绝大多数ER上下文中，falsenegative通常都是比falsepositive更大的一个问题，这显然是由于E集合的未知性。当然，正是因为E集合的未知，ER过程才有存在的价值。实际当中&#x

最低0.47元/天解锁文章

数据中国

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《实体解析与信息质量》-1.2.3.实体引用解析

实体引用解析实体引用解析所关注的是这样一个决策：两个引用实例是否等价，它们是否指向同一个实体？这个决策通常是通过引用的身份属性值的相似程度来做出的，这样的做法被称为匹配（Matching）过程。当不同引用被断定为等价时，链接操作为他们赋予相同的链值。匹配(Matching)和链接(Linking)大概是ER世界中最容易被混淆的两个术语了。链接是通过将不同引用赋予相同的通用标志符链值，
复制链接

扫一扫

专栏目录