《实体解析与信息质量》 - 1.1.1 实体解析

实体解析 (EntityResolution)

实体解析(ER)是一种用于判断两条记录是否指向同一事物的过程。实体这个术语描述了过程的目标是真实世界的事物,比如某个人,地点或者物品。 而解析则描述了回答这样的一个问题的过程:两条不同记录是否指向了同一个真实实体?

尽管实体解析的定义描述的是两条记录之间的关系,但事实上,这个定义也可以被延伸到一个更大的记录集合上,相应的,该过程的输出则聚合了指向同一实体的所有记录的子集/簇。在这样的上下文中,ER的定义也可以解释为:“识别并整合所有定义同一真实世界实体的记录的过程”(Benjelloun,Garcia-Molina, Menestrina, et al., 2009)。

在虚拟的IT世界中,实体被表现成一系列实体特征,称之为属性。 而所有属性的值的组合则提供了关于该特定实体的信息。其中一部分的特征,它们的值的组合将唯一确定某个实体,这样的属性集被称为身份记录 作为现实中的个人,常见的属性有姓名,家庭住址,生日等。而身份记录属性则是那些常常被用作识别该人的数据, 比如指纹,驾照以及出身证明。再举一个商品的例子,它的属性则通常包括型号,尺寸,生产厂家,或者通用产品码,后者也正是该产品的身份属性。

引用, 则是指某个特定实体的属性集合(译者:比如数据库中的某一行记录,便是某个特定实体的一个引用,它包含了该实体的一个属性子集。可以将该书中的引用理解为记录)。当两个不同引用指向了同一实体,便被称为共通引用( Chen,Kalashnikov, Mehtra, 2009)或者是一致引用(Benjelloun,et al., 2009)。 为了方便后面的描述,我们在本书中将指向同一实体的不同引用统称为等价引用

引用属性的完整性,准确性,时效性,可信度,一致性,可行性以及许多其他方面都对实体解析的过程以及结果造成影响。这也是实体解析与另一相关领域,信息质量(IQ)密不可分的一个重要原因。

在接下来的讨论中,我们还会做出一个重要的假设:唯一引用假设。即任何一个引用,在真实世界里有且只有一个对应实体。因为在实际中,常常会出现这样的情况: 某一个引用所指向的实体有歧义。举例来说,销售人员在写订单时,他已经有了预想要购买的产品,然而在填写关于产品需求的描述时,可能信息是不完全的。这导致采购人员在购买产品时无法断定应该购买哪件产品。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值