Efficient Similarity Joins for Near Duplicate Detection论文总结
Abstract
随着数据量的增加以及整合来自多个数据源的数据的需求,一个具有挑战性的问题是有效地查找接近重复的记录。
我们专注于有效的算法来查找记录对,以使它们的相似性高于给定阈值。
一些现有的算法依赖于前缀过滤原则来避免计算所有可能的记录对的相似性值。我们通过利用排序信息提出了新的过滤技术;它们被集成到现有方法中,并大大减少了候选者的大小,从而提高了效率。
1. INTRODUCTION
近重复数据彼此具有高度相似性,但它们在位上并不相同。存在几乎重复数据的原因有很多:印刷错误、版本化、镜像或剽窃文档、同一物理对象的多个表示、从同一模板生成的垃圾邮件等。
定义两个对象接近重复的定量方法是使用相似度函数。相似度函数测量两个对象之间的相似度,并将返回 [0, 1] 中的值。较高的相似度值表明对象更相似。因此,我们可以将具有高相似性值的对象对视为近似重复。相似性连接将找到相似性高于给定阈值的所有对象对。
最近提出的 All-Pairs 算法 [3] 被证明是高效的,并且可以扩展到数千万条记录。尽管如此,我们表明 All-Pairs 算法以及其他基于前缀过滤的方法通常会生成大量候选对,所有这些都需要通过相似度函数进行验证。几个真实数据集的经验证据表明,它的候选大小随着数据大小以快速的二次速度增长。另一个固有问题是它取决于相似对象可能共享稀有“特征”(例如,文档集合中的稀有词)的假设。对于具有低相似性阈值或具有受限特征域的问题,该假设可能会被削弱。
在本文中,我们提出了新的精确相似性连接算法,并应用于近重复检测。我们提出了一种位置过滤原则,该原则利用记录中标记的排序并导致相似度得分的上限估计。我们证明它是对现有前缀过滤方法的补充,并且可以处理前缀和后缀中的标记。
2. PROBLEM DEFINITION AND PRELIMINARIES
2.1 Problem Definition
我们将记录定义为一组取自有限宇宙 U = {w1, w2, . . . , w|U| }。相似度函数 sim 在 [0, 1] 中返回两条记录的相似度值。给定记录集合、相似度函数 sim() 和相似度阈值 t,相似度连接问题是找到所有记录对 hx、yi,使得它们的相似度不小于给定阈值 t&#x