《实体解析与信息质量》 - 本书的章节组织形式

本书的前两章分别讲述了ER和IQ的基本原则,同时还对书中使用基本的术语和概念进行了介绍,比如ER的定义,唯一参照物假设以及ER的基本规则。

在第一章中,主要描述了ER不仅仅是简单的记录匹配,它更多是关于如何判断等价引用的方法和操作。本章还会介绍关于ER的五个基本步骤,分别是实体引用的抽取,准备,解析,管理和分析。

ER的四种体系架构也会在这章中介绍:分别是合并清除/记录链接,异构数据库关联,身份解析,和身份捕获。 另外还会介绍四种判断引用等价的方法:直接匹配,等价传递,联想分析和等价断言。

第二章简要描述了IQ的各种原则。该章重点阐述了这样一个理念:即如果信息被视为企业中不可替代的资产, 那么它所要完成的便不仅仅是对数据进行清洗。 事实上信息的质量和信息产品的价值是息息相关的,因此IQ必须始终体现数据的商业价值。同时,本章还讨论了IQ的信息生成模型和信息质量管理的TQM原则。通过前两章的学习,会帮助大家认识到IQ和ER之间的紧密联系。

支撑ER的主要理论模型在第三章进行介绍,首先会从记录链接(record linkage)的Fellegi-Sunter理论讲起,然后是斯坦福大学的Stanford Entity Resolution Framework和AlgebraicModel,最后是ENRESmeta-model的一个简要介绍。

第四章会带领大家熟悉一下entity-based dataintegration (EBDI). 作为algebraic model的一个重要补充,EBDI模型提供了一个独立于具体实现方式的框架,其中包含了数据整合的上下文和操作方法的详细描述。本章也介绍了其他通用的数据整合方法及其量化方法。

在第五章中介绍了三家商用ER系统及它们在解决真实ER场景的详细步骤。第六章是第五章的一个延续,我们会在第六章重点介绍一个名为OYSTER的开源系统,它已经被应用在多个商业和政府系统中。OYSTER是目前为止已知的唯一一个包含解析引擎,并能够完成合并清洗,实体解析以及实体捕获的开源软件。本书的附录中有提供OYSTER的XML脚本实例,以帮助各位下载了该系统的读者进行配置和练习。

在ER研究和实践方面的一些趋势将会在第七章进行讨论,包括身份识别系统的广泛使用,高性能计算对ER的影响,图形理论和网络分析对提高解析结果的理论研究。最后是如何利用机器学习技术,比如基因编程,来提高基于实体解析的数据集成准确性。

除了OYSTER,本书提供的另外一个重要资源是合成数据。因为隐私法规的限制,我们很难在教授ER和IQ的时候使用真实的个人身份识别信息(PII)。 虽然一些常用名和地址,能被用于ER的基本概念的练习,但使用它们会丧失真实ER场景中数据的复杂性,一些细微但重要的区别以及其他数据质量问题,而这些刚好是ER中最难于解决的困难。因此在作者的日常教学活动中,合成数据被用来帮助学生更真实的练习ER。ERIQ对第五章中所使用到的合成数据也同样授权给所有的读者使用。这些合成数据模拟了在某个固定时期中某些人在真实美国地址上的迁移,它来源于作者的某个研究项目。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值