《实体解析与信息质量》-1.2.6.总结

总结

实体解析就是对引用做出判断,它是否指相等是向现实世界的实体。链接是一个附加的共通的实例引用以此标识他们是等价的。身份识别,记录链接,记录匹配,记录去重,合并清除,还有实体解析这些都代表了ER的特定形式或方面。广义地来说,ER包含五个主要步骤:实体引用抽取,实体引用准备,实体引用解析,实体身份管理,和实体关系分析。

 

在这5个步骤中精确和模糊匹配是很重要的工具,但是引用的直接匹配并不是确定引用等价唯一的方法。其他方法包括链接传递,链接联想和链接断言。

 

ER系统有4条架构原则:合并清除/记录链接,异构数据库连接,身份识别,还有身份采集。合并清除是最基本和常见的ER,实体引用是系统的相互比较并且划分到等效的记录集群(子集)。异构数据库连接系统是一种事务性的ER系统,输入引用的属性值被翻译成不同的数据库和数据库表的查询。查询结果会被进行分析,以确定数据库中是否有与输入等价的引用。在身份识别架构中,传入的引用对于一组身份管理进行解析。每个身份在身份识别系统中都有一个持续的标识符,它链接到等价身份的引用,一个持续的标识符就是这样创建的。身份采集架构是身份识别的一种方式,它通过一组通过引用它构建身份来进行处理,而不是一组未知的身份。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值