《实体解析与信息质量》 - 3.1.5复习题

完成复习题1,2,3需要以下信息:请访问ERIQ实验室站点(ualr.edu/eriq/)并下载数据集ListOne.txt,ListTwo.txt以及TruthFile.txt。

ListOne.txt包含284条记录,每条记录分别有两个字段:

·        字段1为记录号(1 到284)。

·        字段2代表该记录的四个身份属性。每个属性的可能值为从A到G的字符值。举例说明,该文件中的第二条记录的属性值为:

o  属性值1 = ‘E’,

o  属性值2 = ‘B’,

o  属性值3 = ‘C’,

o  属性值4 = ‘F’

·        注意到ListOne.txt中并没有重复数据—也就是说,任意两条记录的属性值都不相同。

ListTwo.txt则包含272条非重复数据,它的结果与ListOne.txt完全相同。

TrueFile.txt包含了3104条记录。它所代表的是ListOne与ListTwo中的真等价对,亦即独立于任何一致性模式或匹配标准,在ListOne和ListTwo中被认为等价的记录对。TrueFile.txt文件中的记录包含三个字段:

·        字段1为ListOne中的记录号。

·        字段2为ListTwo中的记录号。

·        字段3的值为“Y”,代表两记录等价。

考虑到ListOne和ListTwo中的记录一共可以生成77248条记录对,如果某记录对不在该文件中,那么可以认为两条记录并不等价。

 

1.      利用上述的文件ListOne,ListTwo以及TrueFile中所包含的信息,计算ListOne和ListTwo中的四种身份属性可能产生的16种一致性模式的模式比重。该比重的计算公式为:

2.      根据本章的例子,将模式比重由从大到小进行排序。如果假定falsepositive的比率µ不得超过10%,falsenegative的比率λ不得超过15%,找出利用在模式比重排列表中由和所截取的范围。哪些模式落在中间,并需要手动检查?请计算出有多少ListOne和ListTwo中的记录对需要被检查。

3.      假定这四种属性为条件独立的,将文本中的个体的相同属性进行加和,并以此重新计算出16种属性搭配的模式比重。比较这样计算出来的比重与复习题1中得出的结果的区别。

4.      假设有集合R,匹配算法M,以及整合算法µ,可计算出ER(R).而根据SERF模型,该集合可能为空,也可能为非有限集合,甚至可能并非唯一集合。在本章中给出的例子就包含了两种关于ER(R)的解决方案。请给出一个关于R,M, 以及µ的例子,使得该ER(R)集合不存在,并解释原因。给出一个ER(R)为无限集合的例子,并解释原因。

5.      令R={1},M(x, y) = True当且仅当x为奇数,且µ(x,y)=x+y. 根据SERF模型,D的值为?ER(R)呢?

6.      将上文中的文件ListOne.txt中的284条记录作为引用集合R,请针对该集合计算R-Swoosh。其中M函数为当有三个及以上属性相同时,返回真。Merge函数跟文中的R-Swoosh例子所描述的一致,即匹配对中的所有属性值均会被用作创建整合记录。当该过程结束时,ER(R)集合的大小是多少?

7.      令集合S={a, b, c, d},请给出一些关于S的关系的例子,其子集范围为SxS,且符合以下条件:

·        非自反的,非对称的,非传递的

·        自反的,非对称的,非传递的

·        非自反的,对称的,非传递的

·        自反的,对称的,传递的

·        非自反的,非对称的,传递的

·        自反的,非对称的,传递的

·        非自反的,对称的,传递的

·        自反的,传递的,对称的

8.      令S={a, b, c, d, e, f}, A和B分别为S的子集的集合:A={{a,c}, {b, d, e}, {f}}, c={{a}, {b, c}, {d, e, f}}.请计算A和B的Talburt-Wang索引,Rand索引,修正Rand索引,Minestrina pairwise以及cluster-levelcomparison measures比较。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值