《实体解析与信息质量》
文章平均质量分 66
数据中国
数据中国是由一群致力于提高信息质量服务的年轻人创建的分享平台,我们期望通过这个平台学习和分享在数据质量等领域的经验。
展开
-
《实体解析与信息质量》 - 目录
目录 封面目录扉页实体解析和信息质量版权对这本书的赞誉前言序言编写本书的动机读者对象本书的组织结构鸣谢1.实体解析的基本概念什么是实体解析实体解析的活动总结问题回顾2.信息质量的基本概念什么是信息质量信息质量和信息品质两个信息品质的例子翻译 2014-11-18 10:02:50 · 1340 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.3.实体引用解析
实体引用解析实体引用解析所关注的是这样一个决策:两个引用实例是否等价,它们是否指向同一个实体?这个决策通常是通过引用的身份属性值的相似程度来做出的, 这样的做法被称为匹配(Matching)过程。当不同引用被断定为等价时,链接操作为他们赋予相同的链值。匹配(Matching)和链接(Linking)大概是ER世界中最容易被混淆的两个术语了。链接是通过将不同引用赋予相同的通用标志符链值,翻译 2015-02-06 15:00:04 · 1724 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.5.实体关系分析
实体关系分析在等价的引用被转变和识别后,许多应用提出了另一个问题:这些实体间的多样化的关系是怎样的?这其中,第一个被探索的实体关系是家庭关系(Household Relationship),即不同的实体居住在同一个家庭里,营销公司最先看到这其中的价值。有趣的是,到目前为止,家庭关系仍是最难定义和管理的。对此最简单的定义方式是:住在同一个地方有着相同姓氏的人。这样的定义简单易行,但它并不能觉察文翻译 2015-03-24 09:26:11 · 1191 阅读 · 0 评论 -
《实体解析与信息质量》- 2.1.5 信息及过程
从最基础的层面上来说,信息质量是关于信息本身的知识,然而到目前为止,我们讨论的更多的则是有关信息处理的过程。尽管我们已经进入了所谓的“信息时代”,然而这么久以来,我们很少能够真正的将信息(数据)以及对数据处理的过程这两者区分开来。直到今天,所谓了信息时代如今更像是变成了“科技时代”。这种差异性可以追溯到当年计算机系统的内存还十分有限,大多数问题都要靠高效的算法来解决的时代。存储系统过小也导致了大多翻译 2015-05-25 09:31:03 · 862 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.4.实体身份管理
实体身份管理ER中另一个很重要的概念就是实体身份。根据Lim,Srivastava,Probhakar and Richardson(1993)的定义,实体身份就是该实体的一系列属性值,在特定上下问中,通过一定的无差别的规则,可以通过这些属性将该实体与其他所有同类实体区分开来。从这个定义似乎可以得出,ER过程总是可以通过对这些身份属性进行匹配来完成。然而还有以下这些原因是的直接匹配无法总是称为翻译 2015-03-06 10:54:37 · 1481 阅读 · 0 评论 -
《实体解析与信息质量》 - 2.2.1 复习题
1. 从财务的角度上如何定义“资产”?信息在哪些角度符合这样的定义?又在哪些角度不符合?2. 信息质量的度量单位是什么?3. 举例来说明这样一种情况:同一条信息在它的其中一个应用中具有较高质量,在另一个应用中的质量则较低。4. 找到一篇关于信息质量或数据质量的多维度框架的文章或书籍。解释它与Wang-Strong框架的区别以及相同之处。5.原创 2015-07-06 09:59:48 · 939 阅读 · 0 评论 -
《实体解析与信息质量》 - 3.1.0 概述
本章将要介绍三种ER模型,这些模型分别涵盖了ER流程的不同层面,相互之间进行补充。第一个也是最先被讨论的模型是Fellegi-Sunter模型,该模型讨论的是如何利用直接匹配进行等价引用链接的方法。为处理概率匹配下的等价匹配问题,Fellegi-Sunter模型还提供了一种特殊的算法。我们要讨论的第二个模型是斯坦福实体解析框架(SERF),该模型针对ER的一般处理流程,定义出一系列通用术语,其中包翻译 2015-07-13 09:37:22 · 1129 阅读 · 0 评论 -
《实体解析与信息质量》- 2.1.8 信息质量(IQ)作为一门学科
IQ缺乏关注度的其中一个原因是,到目前为止还没有出现一个被广泛接受的知识和词汇来描述和测量DQ和QoI. IQ不像计算机科学这门学科在算法设计、理论计算、证明算法的正确性等学术研究和出版上已经历史悠久,它还没有受到大部分人的关注。幸运的是这种状况正在发生着改变,越来越多的会议和期刊已经开始在这一领域征求和发表论文。最近的一篇由Ge andHelfert (2006) 发表的论文就描述了关于信翻译 2015-06-15 11:47:38 · 956 阅读 · 0 评论 -
《实体解析与信息质量》 - 3.1.2 SERF模型
斯坦福实体解析框架(SERF)是由HectorGarcia-Molina领导的研究小组(Benjelloun, Garcia-Molina, Kawai, Larson, Menestrina,Su, Thavisomboon, and Widom, 2006)在斯坦福信息实验室开发出来的。SERF模型中,两个引用的成对解析被抽象成一个匹配方法(match function M),该方法通过操翻译 2015-07-27 11:26:55 · 1263 阅读 · 0 评论 -
《实体解析与信息质量》 - 3.1.4 ENRES 元模型
为了更好的描述ER模型,Malin和Sweeny(2005)发表了一篇关于名为ENRES的语义上的框架的文章,该框架并不算是真正意义上的ER模型。 它是由实体,属性,以及属性值元组(队列)等概念构成。关于实体引用中的元组概念,我们已经在第一章中阐明。模型中的属性根据语义被划分为以下三类:· Personal – 与实体本身有关的属性· Locational翻译 2015-08-24 10:13:31 · 1105 阅读 · 0 评论 -
《实体解析与信息质量》 - 3.1.3 Algebraic模型
代数模型(AlgebraicModel)尽管一个ER处理流程的实现存在着一定的复杂性,譬如在Fellegi-Sunter模型和Swoosh算法中所描述的,它的结果可以简单的用术语等价关系来描述,该术语是抽象代数中的基本概念(Rotman,2005)。代数模型首次提出作为一个方法来为实体解析实现信息质量指标(Talburt,Wang,Hess,Kuo,2007),并已经被扩展成第四章所提到的包括翻译 2015-08-11 10:26:50 · 1603 阅读 · 0 评论 -
《实体解析与信息质量》 - 3.1.1 Fellegi-Sunter模型
Fellegi-Sunter模型从历史上来看,政府人口普查、福利和税收统计计划是第一个解决实体解析问题的组织,他们开始尝试着汇总和总结大量的居民和企业信息。想要收集关于人口的精确数据,那么确定两条在不同的时间或者被不同机构所收集的数据记录是否为同一个实体就显得尤为的重要。1969年,在加拿大统计局工作的统计学家I.P.fellegi和A.B.Sunter出版了一篇论文,论文名为记录链接理论,这翻译 2015-07-20 11:20:41 · 3063 阅读 · 4 评论 -
《实体解析与信息质量》 - 3. 1.6总结
Fellegi-Sunter模型是第一个基于记录链接的背景来建立关于实体解析的正式理论知识的尝试, 它同时也提供了关于构建和分析模糊匹配规则的实践指导。而SERF模型则是一个更加通用的ER模型,它并未预定义好关于引用是否等价的一系列方法,相应的,该模型将关注点放在为了确保ER系统的唯一输出原则,链接和整合过程所必须满足的各种条件。 同时, 它还介绍了在实体管理和实体捕获中的主要部分:整合引用这一术翻译 2015-09-21 11:56:33 · 1013 阅读 · 0 评论 -
《实体解析与信息质量》 - 3.1.5复习题
完成复习题1,2,3需要以下信息:请访问ERIQ实验室站点(ualr.edu/eriq/)并下载数据集ListOne.txt,ListTwo.txt以及TruthFile.txt。ListOne.txt包含284条记录,每条记录分别有两个字段:· 字段1为记录号(1 到284)。· 字段2代表该记录的四个身份属性。每个属性的可能值为从A到G的字符值。举例说明翻译 2015-09-01 15:00:01 · 644 阅读 · 0 评论 -
《实体解析与信息质量》 - 4.1.1 介绍
ER通常只是在比较大的基于实体的数据集成(EBDI)流程中的一个中间步骤。EBDI是整合和合理化与等价实体相关的信息集体的过程。每个引用可能只提供关于一个实体的一小部分信息,但是结合其他等价引用中的信息可以合并成一个更加全面的实体数据集。当然,等价引用所提供的一些信息可能是相同的属性,也就是既有正面又有负面影响的情况。当属性值一致时,它往往会增加信心水平认为该值是正确的。但是从另一方面来说,当它们翻译 2015-10-16 16:57:28 · 788 阅读 · 0 评论 -
《实体解析与信息质量》 - 4.1.2 描述EBDI的形式化框架
这里给出的EBDI的形式化描述继承了上一章中ER流程的代数模型(Talburt,Wang, Hess, Kuo, 2007),该ER流程是为了实体引用集上的等价关系(Holland,Talburt, 2009; Talburt,Hashemi, 2008)所定义的。EBDI的形式描述始于一个集成环境的概念。该集成环境提供了一个明确的机制来描述一个信息源集合中的实体等价(ER部分)和属性等价翻译 2015-11-11 18:02:03 · 963 阅读 · 0 评论 -
《实体解析与信息质量》 - 2.2.0 总结
信息质量的基本原则,就是为了将组织中的信息的价值最大化。信息的质量水平也直接与信息在其应用中所产生的价值关联。而数据质量则是信息质量的一个重要组成部分,它是根据预定义好的规格及需求,如何对数据进行评估,优化以及维护的实践。作为一种原则,信息质量覆盖了范围很广的知识以及技能的因素。IAIDQ IQ框架乃是由六个领域的内容所组成,其中包括:信息质量策略,政策以及监管;创建可推动信息质量发展的企业文化和翻译 2015-06-29 09:08:20 · 1005 阅读 · 0 评论 -
《实体解析与信息质量》- 2.1.7 信息质量的演变
尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。问题认知:数据清洗阶段九十年代初期,在Inmon (1992),Kimball, etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据翻译 2015-06-08 09:29:21 · 1151 阅读 · 0 评论 -
String 常用方法最优算法实现总结 (三) -- findCommonSubstring 和difference
1. String difference(final String str1, final String str2)说明:Compares two Strings, and returns the portion where they differ.i.e:("ahc", "bcu") -> "ahbu"/** * * @Title: differen原创 2015-06-29 16:37:39 · 1398 阅读 · 0 评论 -
《实体解析与信息质量》 - 序言
实体解析是基于一组模糊的线索,识别出某条记录有多大概率为某个现实实体的过程。纵观整个历史,人类一直在不断地进行着各种实体解析的不同尝试。早期人类通过观察动物的脚印来识别出是哪种动物留下的足迹。后来,人类运用专业领域知识,通过观察鲸鱼喷出的水柱形状,来确定其是否属于可猎杀的鲸鱼种群。在二战期间,英国分析师仅仅通过电报员的“拳头”,发电报的时间以及电报员键入摩斯密码的方式,就能识别出是哪一个德国无线电翻译 2014-11-20 13:27:28 · 1076 阅读 · 0 评论 -
《实体解析与信息质量》 - 本书的章节组织形式
本书的前两章分别讲述了ER和IQ的基本原则,同时还对书中使用基本的术语和概念进行了介绍,比如ER的定义,唯一参照物假设以及ER的基本规则。在第一章中,主要描述了ER不仅仅是简单的记录匹配,它更多是关于如何判断等价引用的方法和操作。本章还会介绍关于ER的五个基本步骤,分别是实体引用的抽取,准备,解析,管理和分析。ER的四种体系架构也会在这章中介绍:分别是合并清除/记录链接,异构数据库关联,身翻译 2014-11-26 13:43:34 · 979 阅读 · 0 评论 -
《实体解析与信息质量》- 创作动力
实体解析(ER )和信息质量( IQ)是信息科学领域的两门新兴学科。我寄望这本书能够为该领域不断增长的知识储备做出一定的贡献。我觉得参与发起一门新兴学科是一件很有意义的事情,籍此来组织信息质量学科的第一个研究生学位课程,则犹如一段令人兴奋的旅程。这其中的一个重要挑战,便为学生们寻找合适的书籍和学习资源, 因为关于这些主题大学水平的教科书实在是少之又少。 比如《Introduction to I翻译 2014-11-24 13:49:11 · 1194 阅读 · 2 评论 -
《实体解析与信息质量》 - 1.1.1 实体解析
实体解析 (EntityResolution)实体解析(ER)是一种用于判断两条记录是否指向同一事物的过程。实体这个术语描述了过程的目标是真实世界的事物,比如某个人,地点或者物品。 而解析则描述了回答这样的一个问题的过程:两条不同记录是否指向了同一个真实实体?尽管实体解析的定义描述的是两条记录之间的关系,但事实上,这个定义也可以被延伸到一个更大的记录集合上,相应的,该过程的输出则聚合了指向翻译 2014-12-01 14:00:45 · 1948 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.1 实体引用抽取
实体引用抽取: ERA1许多与数据处理相关的系统设计,都会基于这样一个假设:即它所处理的数据源所包含的是结构化的数据。所谓结构化数据,是指该数据源中的实体信息以一种一致的,可被预测的形式组织起来的。举例来说,关系型数据库系统中的行-列格式,其中每一行代表了一个实体引用,而实体引用的属性值也总是在任意一行以相同的顺序出现。因此数据库可以被认为是结构化的数据源。只有当获取实体引用的数据源中翻译 2015-01-12 15:20:47 · 1144 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.2 实体引用准备
实体引用准备为了有效的执行处理过程,即使使用的是结构化格式的实体引用数据,额外的预处理仍然是很必要的。一般这个预处理过程被称为ETL(extract, transform, and load)。有时候也被称为数据清洗. 以下是为实体解析做预处理的通常流程(Talley,Talburt, Chan, 2010):编码—将输入数据从一种编码格式转换为另一种。例如,将ASCII 编码的数翻译 2015-01-19 16:15:31 · 883 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.6.总结
总结实体解析就是对引用做出判断,它是否指相等是向现实世界的实体。链接是一个附加的共通的实例引用以此标识他们是等价的。身份识别,记录链接,记录匹配,记录去重,合并清除,还有实体解析这些都代表了ER的特定形式或方面。广义地来说,ER包含五个主要步骤:实体引用抽取,实体引用准备,实体引用解析,实体身份管理,和实体关系分析。 在这5个步骤中精确和模糊匹配是很重要的工具,但是引用的直接匹配并不是翻译 2015-03-30 15:40:12 · 922 阅读 · 0 评论 -
《实体解析与信息质量》-2.1.1信息质量
什么是信息质量随着组织当中信息类资产数量的不断增加(Redman,2008),信息已经不仅仅被用于驱动组织当中的行政过程,它还常常被用来发掘组织中的有价值的情报(Chan,Talburt, Talley, 2010)。这些情报信息可以被用来提高组织的表现,并让组织在市场上获得竞争优势。信息质量(InformationQuality, IQ) 的出现,定义了这样的一系列基本原则,使得应用这些翻译 2015-04-13 17:41:33 · 937 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.7 复习题
复习题1. ER的定义,明确提及“真实世界”的实体。解释下为什么你认为这是很重要的。举些不真实的实体的例子。2. 在某些数据库系统中,一个实体的主键可以是由有多个属性组成的复合键。列举一些实际的例子。论述组合键和单一键的各自的利弊。3. 比较下实体关系模型和新的对象建模技术,如统一建模语言(UML)。4. 对于Mayd翻译 2015-04-09 09:33:30 · 826 阅读 · 0 评论 -
《实体解析与信息质量》-1.1.3 实体和引用
实体和引用数据建模者经常将实体关系模型中的的实例称作实体,然而,在本书实体解析的讨论背景下,我们必须明确的将之区分开:实体关系模型中的实体类型,并非真正“实体”本身。我们通常所称的实体,譬如图1.1中的“学生”实体类型的某个实例,只不过是计算机中学生数据库表中的一行记录而已。该实例仅仅是真实世界里某位学生在计算机系统中的一个引用。因此,在实体解析上下文背景中,通常认为“实体”本身并不存在于信息翻译 2014-12-18 13:53:04 · 948 阅读 · 0 评论 -
《实体解析与信息质量》- 2.1.4 信息质量管理
信息质量管理在上一节,我们介绍了有关员工工资事务以及往年销售业绩报告的信息产品的例子。从这两个例子中,我们还可以发现两种在信息质量领域广泛使用的信息产品。在第一个例子中,有关员工工资事务的讨论激发了关于信息系统与工厂的生产流程之间的类比,并促使我们从“适用性”的角度来看待数据质量。在这种类比当中,数据的来源如同原材料一样进入系统,而IT过程就如工程中的机械和铸造过程一般,将这些原材料打造成符合翻译 2015-05-20 17:21:13 · 994 阅读 · 0 评论 -
《实体解析与信息质量》-2.1.3 两个信息产品的例子
两个信息产品的例子考虑这样一个例子,有一家生产并制造商品的公司,该公司创建了两个信息产品。第一个是该公司的所有员工薪水支付情况,另一个则是往年销售业绩报告。员工薪水支付的信息产品代表了这样一类的信息产品:该产品的信息内容本身,如何处理它,以及期望结果都是已知的。举例来说,对于某个员工的一次支付事务,他的工资总额为它的年薪的一个比例,他的净付工资还需要一系列的扣除。他的事务生成计划表,以及数据会翻译 2015-04-27 15:00:39 · 934 阅读 · 0 评论 -
《实体解析与信息质量》- 2.1.6 IQ与HPC
IQ与HPC即使在现如今,大规模的数据处理以及虚拟无线内存不再像以前那么昂贵的时代,那些历史遗留下来的极简风格的数据内容,还是不断的困扰着现代信息系统。高性能计算(High-performance computing, HPC)如今已经不再仅仅是研究实验室里的玩物了,在近期兴起的云计算(Cloud computing)以及软件即服务(Software as a service, SaaS)(K翻译 2015-06-01 09:38:52 · 1044 阅读 · 0 评论 -
《实体解析与信息质量》-2.1.2信息质量和信息品质
信息质量和信息品质信息质量作为一种通用原则,覆盖了范围很广的话题和关注。Kumar(2005) 将信息质量归类为一种概念,而非一个可度量的变量。然而,诚然信息质量确实是一种概念或是行事原则,它也的确有着可度量的一面。而由Gackowski(2009) 及其同伴提出的术语信息品质 (quality of information, QoI)在此就显得十分有用。在他的论述中, 将信息品质定义为在特定翻译 2015-04-20 16:33:21 · 2002 阅读 · 0 评论 -
《实体解析与信息质量》- 2.1.9 信息质量(IQ)和实体解析(ER)
IQ和ER最直接的联系就是在第一章中所讨论到的实体引用准备流程(ERA2)。但是其实IQ和ER在其他方面也有着关联。ER过程一直都是IP创建的一部分,ER流程的有效性将会直接影响IP的质量。在某些情况下,ER过程就是公司将他们的ER和CDI服务提供给他们客户作为产品的IP。更经常的是,ER将作为实体数据(EBDI)集成的一个中间过程,EBDI是在第四章中详细讨论的话题。这将产生一个反馈循环,即在一翻译 2015-06-24 09:34:59 · 1072 阅读 · 0 评论 -
《实体解析与信息质量》 - 4.1.3 优化选择操作符的精准性
EBDI的一个常见问题是优化集成选择操作符的精准性,事实上对一个来自不同数据源的属性而言既是一个问题也是一个机会。问题是选择哪个值,机会是通过获得更多的选择提高整合资源的整体精准性。如果至少有一个数据源提供正确的值,并且该值被选择了,那么组合数据源的精准性会超过任何一个单独资源的精准性。 举个简单的例子,假设两个数据源都只有两个实体,并且每个数据源的第一个实体和第二个实体都是相等的,从而形翻译 2015-12-09 09:16:03 · 1019 阅读 · 0 评论