本文摘自论文:
Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges
度量空间由一组数据对象和一个度量来计算对象之间的距离。度量空间的度量或距离函数 d 必须满足的主要感兴趣的属性是所谓的三角不等式。它要求对于任何对象 x、y 和 z 它都成立
满足此属性的度量空间的距离函数包括 Minkowski 距离(例如,欧几里得距离)、编辑距离、汉明距离和 Jaccard 系数(但不是 Dice 系数)[174]。三角不等式已被用于使用参考值 [124, 162] 在 PPRL 中进行隐私比较和分类。
三角不等式也被用于减少相似性搜索和记录链接的搜索空间 [7, 12]。在这两种情况下,我们都必须为查询对象 q 找到距离 d(q, x) 小于或等于最大距离阈值(或高于最小相似度阈值)的那些相似对象 x,该最大距离阈值可以看作是半径 rad (q) 在图 5 中 q 附近。三角形等式允许人们避免根据预先计算的到第三个参考对象或枢轴的距离来计算两个对象之间的距离,例如图 5 中的对象 p。利用预先计算的距离 d(p, q) 和 d(p, x),我们只需计算满足三角不等式 d(p, q) - d(p, x) 的对象 x 的距离 d(q, x) ) ≤ 弧度(q)。在所有其他情况下,可以避免比较,例如图 5 中的对象 y。
在 [149] 中研究了利用三角不等式来减少 PPRL 搜索空间的几种替代方法,特别是对于已证明与 Jaccard 相似度等效的汉明距离 [172]。基于枢轴的方法实现了最佳性能,该方法从第一个数据集的样本中选择一定数量的数据对象作为枢轴,并将第一个数据集的每个其他对象分配给其最近的枢轴。对于每个枢轴,还记录其对象的最大距离(半径)。枢轴是从对象样本集中迭代地确定的,使得与所有先前确定的枢轴距离最大的对象成为下一个枢轴。这种选择策略的合理性是在枢轴之间具有相对较大的距离,以便可以将相似对象的搜索限制在枢轴相对较少的对象上。从样本而不是所有对象确定枢轴限制了枢轴选择的开销。对相似(匹配)对象的搜索可以限制在可能与查询对象的半径重叠的枢轴上。对于相关枢轴的对象,三角不等式进一步用于从比较中删除对象。