《实体解析与信息质量》 - 3.1.5复习题

最新推荐文章于 2023-03-10 13:18:53 发布

数据中国

最新推荐文章于 2023-03-10 13:18:53 发布

阅读量642

点赞数

分类专栏：《实体解析与信息质量》文章标签： Entity Resolution

《实体解析与信息质量》专栏收录该内容

35 篇文章 3 订阅

订阅专栏

完成复习题1，2，3需要以下信息：请访问ERIQ实验室站点（ualr.edu/eriq/）并下载数据集ListOne.txt,ListTwo.txt以及TruthFile.txt。

ListOne.txt包含284条记录，每条记录分别有两个字段：

· 字段1为记录号（1 到284）。

· 字段2代表该记录的四个身份属性。每个属性的可能值为从A到G的字符值。举例说明，该文件中的第二条记录的属性值为：

o 属性值1 = ‘E’，

o 属性值2 = ‘B’，

o 属性值3 = ‘C’，

o 属性值4 = ‘F’

· 注意到ListOne.txt中并没有重复数据—也就是说，任意两条记录的属性值都不相同。

ListTwo.txt则包含272条非重复数据，它的结果与ListOne.txt完全相同。

TrueFile.txt包含了3104条记录。它所代表的是ListOne与ListTwo中的真等价对，亦即独立于任何一致性模式或匹配标准，在ListOne和ListTwo中被认为等价的记录对。TrueFile.txt文件中的记录包含三个字段：

· 字段1为ListOne中的记录号。

· 字段2为ListTwo中的记录号。

· 字段3的值为“Y”，代表两记录等价。

考虑到ListOne和ListTwo中的记录一共可以生成77248条记录对，如果某记录对不在该文件中，那么可以认为两条记录并不等价。

1. 利用上述的文件ListOne，ListTwo以及TrueFile中所包含的信息，计算ListOne和ListTwo中的四种身份属性可能产生的16种一致性模式的模式比重。该比重的计算公式为：

2. 根据本章的例子，将模式比重由从大到小进行排序。如果假定falsepositive的比率µ不得超过10%，falsenegative的比率λ不得超过15%，找出利用在模式比重排列表中由和所截取的范围。哪些模式落在中间，并需要手动检查？请计算出有多少ListOne和ListTwo中的记录对需要被检查。

3. 假定这四种属性为条件独立的，将文本中的个体的相同属性进行加和，并以此重新计算出16种属性搭配的模式比重。比较这样计算出来的比重与复习题1中得出的结果的区别。

4. 假设有集合R，匹配算法M，以及整合算法µ，可计算出ER(R).而根据SERF模型，该集合可能为空，也可能为非有限集合，甚至可能并非唯一集合。在本章中给出的例子就包含了两种关于ER(R)的解决方案。请给出一个关于R,M, 以及µ的例子，使得该ER(R)集合不存在，并解释原因。给出一个ER(R)为无限集合的例子，并解释原因。

5. 令R={1},M(x, y) = True当且仅当x为奇数，且µ(x,y)=x+y. 根据SERF模型，D的值为？ER(R)呢？

6. 将上文中的文件ListOne.txt中的284条记录作为引用集合R，请针对该集合计算R-Swoosh。其中M函数为当有三个及以上属性相同时，返回真。Merge函数跟文中的R-Swoosh例子所描述的一致，即匹配对中的所有属性值均会被用作创建整合记录。当该过程结束时，ER(R)集合的大小是多少？

7. 令集合S={a, b, c, d}，请给出一些关于S的关系的例子，其子集范围为SxS，且符合以下条件：

· 非自反的，非对称的，非传递的

· 自反的，非对称的，非传递的

· 非自反的，对称的，非传递的

· 自反的，对称的，传递的

· 非自反的，非对称的，传递的

· 自反的，非对称的，传递的

· 非自反的，对称的，传递的

· 自反的，传递的，对称的

8. 令S={a, b, c, d, e, f}, A和B分别为S的子集的集合：A={{a,c}, {b, d, e}, {f}}, c={{a}, {b, c}, {d, e, f}}.请计算A和B的Talburt-Wang索引，Rand索引，修正Rand索引，Minestrina pairwise以及cluster-levelcomparison measures比较。