An Enhanced Approach for Privacy Preserving Record Linkage during Data Integration论文总结


Integration论文总结)


Abstract

布隆过滤器编码技术仍然存在安全问题,因为攻击者可以使用可用的公共资源重新识别混淆的数据
我们提出了一种增强的方法,用于在数据集成期间保护隐私记录链接 (EPPRL),以在可接受的链接准确性下实现更好的隐私。
结果表明,与平衡Bloom滤波器编码技术相比,所提出的方法EPPRL在精度,召回率,f度量和属性值重新识别方面均优于平衡Bloom滤波器编码技术。

Keywords:-data integration; record linkage; accuracy; privacy; re-identification attack


I. INTRODUCTION

由于公共数据的可用性,大多数现有的PPRL方法都容易受到重新识别攻击,而其中一些方法会损害链接的准确性 [2]。

由于PPRL可以对错误数据进行近似匹配,因此建议使用具有强化方法的Bloom filter编码。然而,即使在Bloom filter编码强化策略上,最近的攻击方法也以有效的方式执行属性值的重新识别 [3]。

本文分析了基本Bloom滤波器编码 [4] 和平衡Bloom滤波器编码 [5] 的密码分析攻击方法V


II. RELATED WORK

在这里插入图片描述
建议使用Cryptographic Long Keys加密长密钥 (clk) 的编码策略,以在PPRL期间实现足够的隐私; 但是,这可能导致链接准确性降低。

攻击方法I,II,III和IV假定有关用于PPRL的Bloom filter编码的信息:

  • 攻击方法I利用constraint satisfaction problem约束满足问题 (CSP) 来重新识别Bloom filter编码的数据。
  • 攻击方法II已尝试将CSP用于由多个标识符组合的一组Bloom过滤器以形成复合Bloom过滤器。
    然而,攻击I和II都未能重新识别大部分属性值 [8][9]。
  • 攻击方法III概念化了替换密码,用于对Bloom滤波器编码数据中的位模式进行频率分析
  • 攻击方法IV对CLKs使用与攻击III相同的机制。
    但是攻击III和IV利用了一定数量的比特模式进行密码分析
  • 攻击V由候选q-gram集生成和属性值重新识别组成,与以前的攻击策略I到IV相比,攻击方法V在重新识别属性值方面是有效的,但可能导致公共数据和Bloom过滤器编码的频率不平衡 [2]。为了避免这个问题,攻击V重新考虑了q-gram位置分配,q-gram集细化,扩展和合并q-gram集的其他步骤,从而产生了新的q-gram集

为了防止PPRL期间的重新识别攻击,建议使用以下不同的Bloom filter编码强化技术:

  • 在Bloom filter编码数据中执行了随机位的添加,以在PPRL期间提供更多的隐私。这实现了更大的隐私,因此在PPRL期间更难攻击。它取决于位翻转概率f和哈希函数的数量k。
  • 用于硬化Bloom滤波器编码的XOR折叠方法考虑了将长度为l的Bloom滤波器分为两个部分,每个部分的长度为l/2。
    这种简单的方法可以降低PPRL的精确度和召回率,使密码分析攻击更加困难 [2][13]。建议加盐使PPRL期间的密码分析攻击不太可能。必须在哈希 (称为salt) 之前将带有salting键的实际属性值连接起来,以进行Bloom filter编码。
  • 可以通过对Bloom filter编码及其否定副本进行串联来构造平衡的Bloom filter。平衡布隆过滤器导致恒定的汉明重量增加,长度增加,因此难以攻击。与具有更多计算空间和时间的基本Bloom过滤器编码相比,该方法已被证明可提供更多的隐私

III. PROPOSED WORK

在本节中,我们详细讨论了建议的EPPRL方法,用于在数据集成过程中实现更好的隐私。

A. Attack Method V

攻击方法V利用公共可用数据和bigram(q=2)从用于PPRL的Bloom Filter编码中重新标识属性值。
攻击方法V的步骤包括Q-gram候选集的生成和属性值的重新标识。 此攻击研究哈希到特定位位置或通过频繁的纯文本值和频繁的Bloom Filter编码对齐的Q-gram集。

B. Proposed Approach

enhanced approach for privacy preserving record linkage (EPPRL)
EPPRL的输入可以是数据集DSI和DSJ,记录分别为RI和RJ,输出将是DSI和DSJ的匹配记录。

EPPRL Steps:

Step I: Initial Agreement and Setting parameters for Bloom filter encoding

在这里插入图片描述

Step II: Hardened Bloom filter Encoding

在此步骤中,将两个散列函数H1(x)和H2(x)应用于属于记录Ri和Rj的每个Bigram x上,分别编码成Bloom过滤器BFI和BFJ。
Bloom Filter强化是通过用随机比特(至少约5-10%)混淆平衡Bloom Filter编码数据来执行的。 进一步,对所得到的Bloom Filter编码进行了否定。 强化Bloom Filter编码的步骤顺序突出显示如下:
在这里插入图片描述
在这里插入图片描述

Step III: Matching and Similarity Calculation of Bloom filter encoded data

数据集DSI和DSJ的记录之间的匹配和计算使用DICE系数相似度计算如下:
在这里插入图片描述
c是bfi和bfj中设置为1的公共位位置的数目,bfi、bfj分别是bfi、bfj中设置为1的位位置的数目。

然后,将观察到的编码Bloom Filter数据之间的相似性值与用户定义的阈值进行比较,以获得记录之间的匹配和不匹配如下:
在这里插入图片描述


IV. DISCUSSION AND ANALYSIS

从属性值的查准率、查全率、可度量性和可重新识别性等方面进行了分析。

PPRL使用了两个北卡罗来纳州选民登记(NCVR)数据集

所提出的EPPRL方法对于大量的数据值具有良好的性能。

对基本Bloom Filter编码、平衡Bloom Filter编码和EPPRL的精度§、召回率®和F-measure(F)进行了计算,如表I所示。我们利用数据集1和数据集2中的200条记录,初步进行了基本Bloom Filter编码、平衡和EPPRL编码技术的实验。
观察到真阳性(TP)、假阳性(FP)和假阴性(FN),这些值用于计算P、R和F,如下所示:
在这里插入图片描述
在这里插入图片描述
表1表明,DICE系数阈值为0.85的基本Bloom Filter编码的准确率、查全率和F测度均高于平衡Bloom Filter和EPPRL编码技术。 此外,本文提出的EPPRL方法的查准率、查全率和F测度都比平衡Bloom Filter编码技术有更好的性能。

在这里插入图片描述

与基本Bloom Filter和平衡Bloom Filter编码相比,EPPRL重新识别的名字属性值很少。 在数据集成过程中,攻击方法V对名字的正确猜测在基本Bloom Filter将结果编码为匹配记录时更多,对PPRL的误报数更少。


V. CONCLUSION

目前用于PPRL的Bloom Filter编码机制容易受到重新识别攻击,而一些强化Bloom Filter编码以降低链接精度为代价增加了隐私性。

在这项研究工作中,提出了一种改进的隐私保护记录链接方法(EPPRL)。 与基本的Bloom Filter和平衡Bloom Filter编码技术相比,它保持了链接的准确性,并提供了更好的隐私性

EPPRL方法在查准率、查全率、F测度和属性值的重新识别等方面优于平衡Bloom Filter。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值