《实体解析与信息质量》 - 1.2.0 实体解析过程

实体解析这一概念,最初是出现在文件清单目录比较的情景中。Fellegi和Sunter(1969),曾经在加拿大统计局工作。在工作中, 他们发现自己常常需要面对这样问题:即通过比较两个不同的清单,来去除其中的重复内容。他们将这个问题的处理过程命名为记录关联或记录链接。到了后来,关系型数据库系统开始出现,关注的焦点也开始转向找出并合并同一实体类型的所有实例(Hernandez& Stolfo, 1995),这也被称为整合-清洗的过程。到了2004年,一篇由斯坦福信息实验室的研究人员(Hector Garcia-Molina, 2006)发表的文章,正式地将这些过程统称为实体解析(ER)

这些不同术语中,整合-清洗过程很好的描述了ER的基本形式:收集所有待处理的数据,并将它们规约为单一的数据集。在此过程中,会系统地比较所有的记录对(笛卡尔积),并将被认作相同的记录放在同一组/簇内。在一些场景下,需要为同一组中的每条记录提供一个通用标志符,称为关系链。而不同组中的记录则有着不同的链值。 这个过程被称为链接。另一些场景下,该过程还会将相同组里的所有记录进行归约,产生一条唯一记录,籍此来减少集合中的记录数量。归约的方式通常有两种:从组中选出最好的模范记录;或是将组中所有引用的属性值组合在一起,生成一条整合记录。这也是整合-清洗名字的由来。

在实体解析系统中,链接这个词的使用场景更加宽泛,它不仅仅表示了实体关联这个过程,我们更常用它来形容整个决策的过程,尽管这个过程中包括了实体链接和整合-清洗过程两者在内。

如今,实体解析技术不断的在理论和实践领域发展壮大,如今已囊括了更广阔的范围。我们将实体解析所包括的内容归纳为一下五个主要的过程:

·        ERA1:实体引用抽取。用于从非结构化数据中定位和抽取实体引用内容。

·        ERA2:实体引用准备。在开始其他过程之前,将结构化的实体引用数据进行分析,标准化,数据清洗以及应用其他一系列的数据质量技术的过程。

·        ERA3:实体引用解析。决策两个引用是否指向同一实体。

·        ERA4:实体身份管理。建立并维护实体身份信息的持久记录。

·        ERA5:实体关系分析。研究不同但有关联的实体之间的关系网,并从中提取有价值信息。

正如术语“IT”可以被用作广义的含义:任何与计算机相关的事物;也可被用作狭义的含义:与编程相关的技术知识。ER也有着所谓的广义定义,亦即我们刚列举的ER的五大过程, 图1.3展示了一个完整的ER系统包含所有五大过程。而另一些情况下,ER也被用作仅仅包含ERA2,ERA3和ERA4的过程,即狭义定义。比如在许多组织中直接被称为ER系统的整合-清洗过程,其实仅仅包含了ERA3的过程。并非所有的ER系统都包含了所有五大过程,更多的是针对每个过程,都有相应的ER工具或系统,以解决相应的问题。


图1.3实体解析系统的五大过程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值