完成复习题1,2,3需要以下信息:请访问ERIQ实验室站点(ualr.edu/eriq/)并下载数据集ListOne.txt,ListTwo.txt以及TruthFile.txt。
ListOne.txt包含284条记录,每条记录分别有两个字段:
· 字段1为记录号(1 到284)。
· 字段2代表该记录的四个身份属性。每个属性的可能值为从A到G的字符值。举例说明,该文件中的第二条记录的属性值为:
o 属性值1 = ‘E’,
o 属性值2 = ‘B’,
o 属性值3 = ‘C’,
o 属性值4 = ‘F’
· 注意到ListOne.txt中并没有重复数据—也就是说,任意两条记录的属性值都不相同。
ListTwo.txt则包含272条非重复数据,它的结果与ListOne.txt完全相同。
TrueFile.txt包含了3104条记录。它所代表的是ListOne与ListTwo中的真等价对,亦即独立于任何一致性模式或匹配标准,在ListOne和ListTwo中被认为等价的记录对。TrueFile.txt文件中的记录包含三个字段:
· 字段1为ListOne中的记录号。
· 字段2为ListTwo中的记录号。
· 字段3的值为“Y”,代表两记录等价。
考虑到ListOne和ListTwo中的记录一共可以生成77248条记录对,如果某记录对不在该文件中,那么可以认为两条记录并不等价。
1. 利用上述的文件ListOne,ListTwo以及TrueFile中所包含的信息,计算ListOne和ListTwo中的四种身份属性可能产生的16种一致性模式的模式比重。该比重的计算公式为:
2. 根据本章的例子,将模式比重由从大到小进行排序。如果假定falsepositive的比率µ不得超过10%,falsenegative的比率λ不得超过15%,找出利用在模式比重排列表中由和所截取的范围。哪些模式落在中间,并需要手动检查?请计算出有多少ListOne和ListTwo中的记录对需要被检查。
3. 假定这四种属性为条件独立的,将文本中的个体的相同属性进行加和,并以此重新计算出16种属性搭配的模式比重。比较这样计算出来的比重与复习题1中得出的结果的区别。
4. 假设有集合R,匹配算法M,以及整合算法µ,可计算出ER(R).而根据SERF模型,该集合可能为空,也可能为非有限集合,甚至可能并非唯一集合。在本章中给出的例子就包含了两种关于ER(R)的解决方案。请给出一个关于R,M, 以及µ的例子,使得该ER(R)集合不存在,并解释原因。给出一个ER(R)为无限集合的例子,并解释原因。
5. 令R={1},M(x, y) = True当且仅当x为奇数,且µ(x,y)=x+y. 根据SERF模型,D的值为?ER(R)呢?
6. 将上文中的文件ListOne.txt中的284条记录作为引用集合R,请针对该集合计算R-Swoosh。其中M函数为当有三个及以上属性相同时,返回真。Merge函数跟文中的R-Swoosh例子所描述的一致,即匹配对中的所有属性值均会被用作创建整合记录。当该过程结束时,ER(R)集合的大小是多少?
7. 令集合S={a, b, c, d},请给出一些关于S的关系的例子,其子集范围为SxS,且符合以下条件:
· 非自反的,非对称的,非传递的
· 自反的,非对称的,非传递的
· 非自反的,对称的,非传递的
· 自反的,对称的,传递的
· 非自反的,非对称的,传递的
· 自反的,非对称的,传递的
· 非自反的,对称的,传递的
· 自反的,传递的,对称的
8. 令S={a, b, c, d, e, f}, A和B分别为S的子集的集合:A={{a,c}, {b, d, e}, {f}}, c={{a}, {b, c}, {d, e, f}}.请计算A和B的Talburt-Wang索引,Rand索引,修正Rand索引,Minestrina pairwise以及cluster-levelcomparison measures比较。