Scalable privacy-preserving linking of multiple databases using counting Bloom filters论文总结


2016 IEEE 16th International Conference on Data Mining Workshops


Abstract

提出了一种新的基于计数Bloom Filters(CBF)的敏感数据编码方法,以提高多方PPRL(MPPPRL)的隐私性。 我们研究了基于CBF的MP-PPRL的优化方法,以减少计算和通信开销。


I. INTRODUCTION

PPRL的目的是只使用屏蔽(编码)QIDS进行联系,而不要求参与联系的组织之间交流和披露任何敏感或机密信息。 通常,掩蔽变换原始QID值,使得在原始QID值和掩蔽QID值之间存在特定的函数关系[3]。

虽然为PPRL提出了许多不同的方法,但到目前为止,大多数工作都集中在连接仅来自两个来源的数据上[3]。 正如上面描述的两个示例所示,在实际应用中通常需要链接来自多个源的数据(MP-PPRL)。

MP-PPRL的一个挑战是计算和通信复杂度随着多方参与而显著增加。 在n个记录的p个数据库中所需的朴素(所有对所有)比较的数目是np。 针对这一复杂性挑战,使用私有索引/分块技术来减少候选记录集的数量,然后对候选记录集进行详细比较,并将其分为匹配和非匹配[1],[3]。 然而,随着p的增加,现有的私有阻塞技术不足以减少比较次数,正如经验研究[4],[5]。 此外,在多方参与的情况下,串通的风险增加,即一组各方为了了解其他各方的敏感数据而串通。

我们提出使用计数Bloom Filter(CBF),它是Bloom Filter(BF)[3]的一种变体,来实现MP-PPRL的高效近似匹配。
BFs是将值哈希映射到其中的位向量(正如我们将在第三节中描述的那样)。 另一方面,CBFs是在每个位置包含计数值的整数向量。 通过使用安全求和协议在BF之间应用向量加法,可以将多个BF概括为单个CBF[6]。

使用单个CBF而不是多个BFS计算记录集的相似性提供了增加的私密性而不损害链接质量,因为CBF只包含多个记录的摘要信息而不是像BFS中那样包含单个记录的比特值。
到目前为止,CBFS的这一隐私方面还没有在PPRL中得到利用。

为了克服MPPRL的可伸缩性和隐私性的挑战,我们引入了一种高效的基于CBF的通信模式,与所有对所有的比较相比,该模式显著减少了记录比较的数量。 因此,它通过将各方安排成若干组(环)并在各方之间分配计算,提高了可伸缩性,同时也提高了隐私性(减少了合谋的可能性)。 针对数据库拥有者之间的共谋,我们提出了两种扩展的安全求和协议:(a)基于同态加密和(b)基于盐分(使用随机种子整数)。 我们从复杂度和隐私性两个方面对协议进行了理论分析,并利用大型选民登记数据集对两种基线方法进行了经验评估和比较。


II. RELATED WORK

文献中提出了各种技术来解决PPRL问题[3]。 然而,大多数研究都只考虑连接两个数据库,对于多个数据库的PPRL研究很少。

如表I所述,现有的少量MP-PPRL方法的主要缺点是:要么它们(1)只允许阻塞(不匹配),(2)只支持精确匹配(如果记录集的屏蔽QID完全相同,则将记录集归类为匹配),要么(3)只适用于分类数据的QID(然而,在许多实际应用中需要使用字符串数据的QID进行链接,如姓名和地址[3],[5])。
在这里插入图片描述


III. DEFINITION AND PRELIMINARIES

在本节中,我们定义了问题,并描述了我们的方法所需的初步步骤。 假设P数据库所有者P1,P2,···,PP及其各自的数据库D1,D2,···,DP(包含敏感或机密的识别信息)在诚实但好奇(HBC)敌手模型下参与PPRL过程[3]。 在该模型中,假设缔约方在不偏离或发送虚假信息的情况下遵守协议,同时好奇地了解其他缔约方的数据。 注意,HBC模型并不阻止缔约方相互串通以了解其他缔约方的数据[15]。

PPRL方法通常使用一个专用的可信链接单元(诚实代理)。 linkage unit链接单元(LU)是对数据库所有者发送给它的屏蔽记录进行链接的外部方[3]。 对于我们的协议,我们假设这样一个LU可以用来进行链接。 我们还假定将用于链接的一组QID属性A对于数据库D1、···、DP是通用的。 我们将多数据库上的PPRL问题形式化定义如下。

一方当事人不希望向任何其他当事人透露其实际记录。 然而,各方准备向彼此或向外部方披露归类为M的记录集的某些选定属性的实际值,以便进行分析。

A. Protocol building blocks

  • Bloom filter (BF) encoding:
    在这里插入图片描述

  • Dice coefficient similarity:
    任何基于集合的相似度函数(如重叠、Jaccard和骰子系数)都可以用来计算(多个)BF的对或集的相似度。 由于骰子系数对长BFS[16]中的许多匹配零点(没有q-grams被哈希映射到的位位置)不敏感,所以它被用于比较BFS[16]。
    在这里插入图片描述

  • Secure summation:安全求和
    安全求和协议[6]可以用来安全地求和多方(p≥3)的输入值,使得没有一方学习其他各方的单个值,而只学习求和值。
    输入可以是单个数值,也可以是数值的向量。
    例如,可以通过使用由LU生成(并保密)然后发送给第一方P1的随机数值向量R来安全地求和分别来自P方(P1、P2、···、PP)的P个数值向量(V1、V2、··、VP)。 接收R的第一方P1计算X1=R+V1的向量总和,并将其发送给P2,P2将自己的V2添加到接收的总和,并将X2=X1+V2发送到P3。 重复这个过程,直到最后一方将xp=xp-1+vp发送回LU,然后LU从求和值xp中减去R,以计算p向量的求和。
    该协议采用基于环的通信模式,在所有各方上学习p i=1vi,但没有一方pi学习其他各方的值vj(随着i=j)。
    在这里插入图片描述


IV. CBF-BASED MP-PPRL ALGORITHM

在这里插入图片描述

在这里插入图片描述

我们的协议允许来自p(≥3)方的多个数据库的高效、近似和私有链接。

  • Step 1:
    双方约定如下参数值:bf长度L; 要使用的K个散列函数H1,…,HK; q-gram的长度(以字符为单位); 最小相似阈值ST(0≤ST≤1),高于该阈值的记录集被归类为匹配; 一个私有阻塞函数块(·); 用于阻塞的阻塞键[1]b; 和一组用于链接的QID属性A。
  • Step 2:
    每一方PI(1≤i≤p)单独应用私有阻塞函数[3]block(·)来减少记录C的候选集合的数量(从pi ni开始,其中ni=di是一方PI持有的di中的记录的数量),否则即使对于中等的ni和p来说,这也是禁止的。 块(·)函数根据块键值对记录进行分组[7],只对来自不同方的具有相同块键值的记录(即同一块中的记录)进行比较和分类。 任何私有阻塞技术[4],[8]都可以用作block(·)函数。
  • Step 3:
    每一方PI使用散列函数H1、…、HK将其各自数据库DI中的每一NI记录的QIDS A的Q-gram值散列映射到长度为L的NI BFS(DI中的每一记录一个BF),以生成DM I。 关键是要以一种最优的方式来设置BF相关参数,以平衡PPRL的所有三个属性(复杂性、质量和私密性)[5],[16]。 我们在第五节中进一步讨论了协议中使用的BFS的参数设置。
  • Step 4:
    在下一步骤中,各方启动安全求和协议,以安全地执行它们的BFS之间的向量加法,以便为每个候选记录集CS∈C生成CBF。候选记录集CS包含P个屏蔽记录(BFS),来自P个各方中的每一个,并且C在总NP i中包含这样的CS(指数复杂性)。 安全求和由提供随机值的向量(长度L)的外部链接单元LU发起。
    LU通过向量加法运算,将每个候选记录集cs∈C的随机向量R[cs]发送给一方(假定P1),与该方的BF向量bi∈DMi(i=1)求和。 然后将求和的向量πcs∈cr[cs]+bi发送到pi+1方。 pi,2≤i≤p,接收来自pi-1的求和向量,并将其bf向量bi∈DMi加到每个候选集cs∈C上,并将求和向量发送给下一个pi+1。 重复该过程,直到最后一方(即PP)将其BP向量添加到从一方PP-1接收的每个求和向量R[cs]+p-1 i=1bi,并将针对每个CS的最终求和向量发送回LU。
  • Step 5:
    最后,提供了随机向量r的LU为每个候选集cs∈C生成CBF C=(R[cs]+\pi=1bi)-R[cs],LU然后计算每个结果CBF C的骰子系数相似度。 (2)根据相似度阈值ST将块内的比较记录集划分为匹配和不匹配。 最终匹配的记录集随后将由数据库所有者或外部方使用某些属性值集进行进一步分析。

A. Extended secure summation

basic secure summation protocol基本安全求和协议(BSS)容易受到有关各方的共谋风险的影响,为了克服这一风险(以提高隐私性),我们提出了两个扩展的安全求和协议。

  • Homomorphic-based secure summation (HSS):
    The partially homomorphic Paillier cryptosystem部分同态Paillier密码体制[17]是一种可靠的安全多方计算(SMC)技术,用于在多方之间进行安全联合计算。 在HSS方法中,一对私钥和公钥用于加密和解密各个bf值。 使用相同公钥对相同值进行连续加密,以较高的概率生成不同的加密值,并且使用私钥对加密值进行解密,返回正确的原始值。 公钥为各方所知,而私钥仅为LU所知。 每一方PI接收包含加密值的求和向量,PI将其加密的BI向量相加(使用公钥),并将加密的求和向量发送给下一方。 在不知道私钥的情况下,一方PI无法解密接收到的向量,因此与一方串通以了解另一方的BJ(具有I=J)将是不可能的。
  • Salting-based (using random seed integers) secure summation (SSS):
    基于salting(使用随机种子整数)的安全求和(SSS):与BSS方法相比,HSS方法提供了一个安全的解决方案,以防止串通攻击为代价,但代价是计算开销过大,使其无法扩展到链接多个大型数据库。 因此,我们提出了SSS方法,以有效的方式提供抗共谋攻击的安全。 salting被用来防御单向散列函数的字典攻击,其中附加的字符串与要加密的值相连[18]。 我们在SSS方法中采用了类似的概念,其中salting密钥是一个额外的随机整数,在执行安全求和时,每一方都单独使用PI。 每一方生成和使用的盐密钥仅被发送到LU,因此不能通过各方之间的共谋来识别一方PI的BF值,因为不知道PI的盐密钥就不能学习其BF值。 由于salting密钥是随机整数值,所以用salting密钥执行BFS的安全求和不会增加任何额外的计算和通信开销,除了从各方到LU的salting密钥通信之外。

B. Improved communication

如上所述,在naive method(NAI)方法中,要比较多方联系的候选记录集的数目与各方数目及其数据集大小成指数关系,这一数目大得难以实际可行(即使使用现有的私有阻塞和过滤方法)[5]。 在本节中,我们提出了一种按环(RBR)通信模式,如图2所示,以提高基于CBFs的方法的可伸缩性和保密性,适用于多方场景。
在这里插入图片描述
各方首先被安排成大小为r的环,至少有2个环,每个环的最小尺寸为r=2(即2≤r≤p/2)。 R的值需要仔细选择,因为它在可伸缩性(复杂性)和隐私性之间有一个折衷。 R值越高,协议的保密性越好,因为由此产生的CBFs更难利用推理攻击,这将在第五节中讨论。另一方面,较高的R值会导致对跨多方的较大数据集的可伸缩性较低,因为每个环所需的比较次数随环大小R呈指数增长。

naive方法可以被认为是RBR的一个特例,只有一个R=P的环。 通过几个较小的环(r≤p/2),每个环将候选记录集的数目减少到仅匹配,从而能够在候选记录集的数目中进行显著的滤波。

RBR方法,如算法IV-B所详述,包括两个阶段。 在第一阶段(第2-6行)中,每个环中的各方使用sec_sum(·)函数分别对其屏蔽记录集(BFS)执行安全求和,以生成CBFS CRING(第3行)。 利用EQ计算了每个CBF的相似度。 (2)识别每个环中的匹配项mring(第4-6行)。 在第二阶段(行710),环对在每个环mring中标识的匹配执行它们之间的安全求和,以便从所有P方标识匹配m。

第一阶段中的每个环可以采用一组不同的BF参数,以减少不同环中的一组当事方之间合谋的可能性。 在第二阶段,所有各方然后必须商定另一组参数,用于在第一阶段的不同环中识别的匹配的BF编码。 此外,第一阶段的环可以在分布式环境中独立并行地处理,使得RBR可以扩展到更大的数据集大小。

改进的通信模式的主要思想是利用大多数候选集是真非匹配的(由于记录链接的类不平衡问题[7]),以及真匹配集必须在该集中的任何记录子集之间具有高相似度的事实。 因此,对于具有多个缔约方的MP-PPRL应用程序,有希望为一个子集的缔约方确定部分匹配,并仅为这些部分匹配考虑额外的缔约方。


V. ANALYSIS OF THE PROTOCOL

从复杂度、隐私性和链路质量三个方面分析了我们的MP-PPRL协议。

Complexity:

我们假设有P方参与协议,每个方都有一个由N个记录组成的数据库。 在协议的第1步中,参数的一致具有恒定的通信复杂度。 在第2步中阻塞数据库的计算量为O(n),通信复杂度为O(p·b)(假设b≤n个块)。 在步骤3中,使用k个散列函数将记录(平均q-grams为g)掩蔽到长度为l的BFs中,在每一方为O(n·g·k)。

步骤4和5包括BFS的安全求和,以计算候选集的CBFS。 在简化的假设下,所有块的大小都是相等的n/b,使用naive方法总共需要O(p i=1b(N/b)i)向量求和。

我们扩展的安全求和协议HSS和SSS旨在以复杂度开销为代价来提高隐私性。 扩展HSS协议需要交换N·L·p个加密值(每个4字节的长整数),而基本安全求和(BSS)和SSS需要交换N·L·p个短整数值(每个2字节),与HSS相比效率更高。 此外,与简单的向量加减运算相比,HSS中使用的同态加密和解密函数在计算上是昂贵的[15]。

Privacy:

与现有的大多数PPRL方法一样,我们假设所有的协议方都遵循诚实但好奇(半诚实)的敌手模型[3],在该模型中,协议方遵循协议,同时好奇地通过对输入数据的推理攻击[2]或合谋[3]来了解对方的数据。 为了分析防止推理攻击的隐私性,我们讨论了协议中各方可以从他们之间交换的数据中学习什么。

安全求和协议对LU的推理攻击是安全的,因为一方使用的随机值对LU是未知的[6]。 我们假设可信的LU是可用的,它不会与任何一方串通,这在许多实际的PPRL应用程序中是常用的[19]。

然而,在基本的安全求和协议中,数据库所有者之间的共谋是一个隐私风险,其中一组当事人可以共谋使用他们收到的求和值来了解另一方的BF。 为了克服这一问题,在第四章A节中,我们提出了两个扩展的安全求和协议,HSS和SSS。
HSS协议使用同态加密进行安全求和,这使得协议更加安全,因为在不知道私钥(只有LU知道)的情况下,通过共谋识别一方的BF值是不成功的。 然而,该协议将一个BF中的每个整数值(每个BF的总值为L)加密成一个哈希密钥(长整数),因此产生了很大的通信开销,使得该协议不适用于多个大型数据库的链接。
类似地,SSS协议通过在安全求和中添加额外的整数值作为每一方单独的盐密钥(仅LU已知)使协议更加安全,使得在不知道盐密钥值的情况下,各方之间不可能进行共谋以了解一方的BF。 与HSS相比,SSS方法不会产生任何昂贵的通信开销,因为salting密钥是小整数值。

Linkage quality:

我们的协议支持QID值的近似匹配,因为根据所使用的最小相似性阈值ST来考虑数据错误和变化。 用它们各自的P BFS计算的P记录的骰子系数相似度与用单个CBF C计算的相似度是相同的,

一个CBF C中的假阳性率F是相应P BFS BI中引入的假阳性率FI的总和,其中1≤I≤P。 因此,与BF相比,CBF提供了增加的私密性,同时导致与其对应的P个BFS相同数量的假匹配(即,导致与增加的私密性相同的相似性)。


VI. EXPERIMENTAL EVALUATION

据集是从北卡罗来纳州选民登记(NCVR)数据库(从ftp://alt.ncsbe.gov/data/)中提取的。

我们使用精确匹配的基于BF的PPRL方法(EMBF)[13]和近似匹配的基于BF的PPRL方法(AM-BF)[5]作为基线方法。 由于MP-PPRL的其他现有方法(如第二节所述,并在表一中分类)要么只允许分块,要么只支持精确匹配,要么只适用于分类数据,因此我们不能直接将它们与我们的方法进行比较。

我们在Python(Version2.7)中实现了所有方法,并在具有2.4GHz CPU、128G内存和运行Ubuntu14.04的服务器上运行了所有实验。

表II显示了所需的运行时和内存大小,以及使用三种安全求和协议所获得的F-Measure结果。
可以看出,HSS需要更高的运行时和内存(这在实际应用中是不实际的),以在不损害F-度量结果的情况下提高对BSS的共谋攻击的隐私性。 然而,SSS方法需要类似于BSS的运行时和内存,以提高针对共谋的隐私性,而不损失链接质量。 因此,我们在以下所有实验中都使用SSS。
在这里插入图片描述
在这里插入图片描述

图3(a)显示了RBR和NAI方法在记录之间所需的比较次数。
对于NAI方法,随着p的增加,这个数字随数据集的大小呈指数增长。 如图3(b)所示,尽管基线方法比我们的方法需要更少的运行时间来链接p≤5的数据集,但它们不能伸缩到更大的p和数据集。 由于比较次数呈指数增长,我们无法在50K数据集上进行P≥5的基线方法的实验。 我们的方法是可伸缩的,对于链接来自多方的数据集,需要的运行时间大大降低。
如图3©所示,我们的方法实现了与AM-BF相似的F度量,并在修改的数据集上优于EM-BF。 最后,我们将基于CBF的方法与基于BF的基线方法的隐私结果进行了比较,如图3(d)所示。 结果表明,CBF的DRMean一直比BF低(因此隐私性更好),并且随着P的增大,DRMean降低。


VII. CONCLUSIONS AND FUTURE WORK

我们提出了一个可扩展的多数据库PPRL协议,并改进了通信模式。 我们的方法使用高效而简单的隐私技术,即计数BFS(CBFs)和安全求和,对(字符串数据的)QID值进行近似匹配。 在多达100万条记录的真实数据集上进行的实验表明,与两种基线方法相比,我们的方法具有可扩展性和更好的隐私性,同时获得了更优或类似的链接质量结果

在以后的工作中,我们计划研究其他改进的抗碰撞安全求和协议不同的近似字符串比较函数[1]。 我们还旨在开发有效的PPRL技术来识别在子集内的匹配记录集,这是一个重要的研究问题。 另一个研究方向是在其他对抗模型下发展MP-PPRL方法,如隐蔽模型或责任计算[2](诚实方可以以很高的概率验证来自不诚实方的虚假数据),以克服半诚实(HBC)对抗模型的局限性。 最后,我们计划研究改进的MP-PPRL分类技术,包括关系聚类和基于图的方法[1],这些方法已经成功地应用于非PPRL的应用。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值