PPRL for Metric Space Similarity Measures:用于度量空间相似性度量的 PPRL

本文摘自论文:
Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges

度量空间由一组数据对象一个度量来计算对象之间的距离。度量空间的度量或距离函数 d 必须满足的主要感兴趣的属性是所谓的三角不等式。它要求对于任何对象 x、y 和 z 它都成立
在这里插入图片描述

满足此属性的度量空间的距离函数包括 Minkowski 距离(例如,欧几里得距离)、编辑距离、汉明距离和 Jaccard 系数(但不是 Dice 系数)[174]。三角不等式已被用于使用参考值 [124, 162] 在 PPRL 中进行隐私比较和分类。

三角不等式也被用于减少相似性搜索记录链接的搜索空间 [7, 12]。在这两种情况下,我们都必须为查询对象 q 找到距离 d(q, x) 小于或等于最大距离阈值(或高于最小相似度阈值)的那些相似对象 x,该最大距离阈值可以看作是半径 rad (q) 在图 5 中 q 附近。三角形等式允许人们避免根据预先计算的到第三个参考对象或枢轴的距离来计算两个对象之间的距离,例如图 5 中的对象 p。利用预先计算的距离 d(p, q) 和 d(p, x),我们只需计算满足三角不等式 d(p, q) - d(p, x) 的对象 x 的距离 d(q, x) ) ≤ 弧度(q)。在所有其他情况下,可以避免比较,例如图 5 中的对象 y。
在这里插入图片描述
在 [149] 中研究了利用三角不等式来减少 PPRL 搜索空间的几种替代方法,特别是对于已证明与 Jaccard 相似度等效的汉明距离 [172]。基于枢轴的方法实现了最佳性能,该方法从第一个数据集的样本中选择一定数量的数据对象作为枢轴,并将第一个数据集的每个其他对象分配给其最近的枢轴。对于每个枢轴,还记录其对象的最大距离(半径)。枢轴是从对象样本集中迭代地确定的,使得与所有先前确定的枢轴距离最大的对象成为下一个枢轴。这种选择策略的合理性是在枢轴之间具有相对较大的距离,以便可以将相似对象的搜索限制在枢轴相对较少的对象上。从样本而不是所有对象确定枢轴限制了枢轴选择的开销。对相似(匹配)对象的搜索可以限制在可能与查询对象的半径重叠的枢轴上。对于相关枢轴的对象,三角不等式进一步用于从比较中删除对象。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值