An Enhanced Approach for Privacy Preserving Record Linkage during Data Integration论文总结

本文链接：https://blog.csdn.net/MashiroSakura/article/details/127202445

An Enhanced Approach for Privacy Preserving Record Linkage during Data Integration论文总结

Abstract
I. INTRODUCTION
II. RELATED WORK
III. PROPOSED WORK
IV. DISCUSSION AND ANALYSIS
V. CONCLUSION

Integration论文总结)

Abstract

布隆过滤器编码技术仍然存在安全问题，因为攻击者可以使用可用的公共资源重新识别混淆的数据。
我们提出了一种增强的方法，用于在数据集成期间保护隐私记录链接 (EPPRL)，以在可接受的链接准确性下实现更好的隐私。
结果表明，与平衡Bloom滤波器编码技术相比，所提出的方法EPPRL在精度，召回率，f度量和属性值重新识别方面均优于平衡Bloom滤波器编码技术。

Keywords:-data integration; record linkage; accuracy; privacy; re-identification attack

I. INTRODUCTION

由于公共数据的可用性，大多数现有的PPRL方法都容易受到重新识别攻击，而其中一些方法会损害链接的准确性 [2]。

由于PPRL可以对错误数据进行近似匹配，因此建议使用具有强化方法的Bloom filter编码。然而，即使在Bloom filter编码强化策略上，最近的攻击方法也以有效的方式执行属性值的重新识别 [3]。

本文分析了基本Bloom滤波器编码 [4] 和平衡Bloom滤波器编码 [5] 的密码分析攻击方法V

II. RELATED WORK

在这里插入图片描述
建议使用Cryptographic Long Keys加密长密钥 (clk) 的编码策略，以在PPRL期间实现足够的隐私; 但是，这可能导致链接准确性降低。

攻击方法I，II，III和IV假定有关用于PPRL的Bloom filter编码的信息:

攻击方法I利用constraint satisfaction problem约束满足问题 (CSP) 来重新识别Bloom filter编码的数据。
攻击方法II已尝试将CSP用于由多个标识符组合的一组Bloom过滤器以形成复合Bloom过滤器。
然而，攻击I和II都未能重新识别大部分属性值 [8][9]。
攻击方法III概念化了替换密码，用于对Bloom滤波器编码数据中的位模式进行频率分析。
攻击方法IV对CLKs使用与攻击III相同的机制。
但是攻击III和IV利用了一定数量的比特模式进行密码分析
攻击V由候选q-gram集生成和属性值重新识别组成，与以前的攻击策略I到IV相比，攻击方法V在重新识别属性值方面是有效的，但可能导致公共数据和Bloom过滤器编码的频率不平衡 [2]。为了避免这个问题，攻击V重新考虑了q-gram位置分配，q-gram集细化，扩展和合并q-gram集的其他步骤，从而产生了新的q-gram集

为了防止PPRL期间的重新识别攻击，建议使用以下不同的Bloom filter编码强化技术:

在Bloom filter编码数据中执行了随机位的添加，以在PPRL期间提供更多的隐私。这实现了更大的隐私，因此在PPRL期间更难攻击。它取决于位翻转概率f和哈希函数的数量k。
用于硬化Bloom滤波器编码的XOR折叠方法考虑了将长度为l的Bloom滤波器分为两个部分，每个部分的长度为l/2。
这种简单的方法可以降低PPRL的精确度和召回率，使密码分析攻击更加困难 [2][13]。建议加盐使PPRL期间的密码分析攻击不太可能。必须在哈希 (称为salt) 之前将带有salting键的实际属性值连接起来，以进行Bloom filter编码。
可以通过对Bloom filter编码及其否定副本进行串联来构造平衡的Bloom filter。平衡布隆过滤器导致恒定的汉明重量增加，长度增加，因此难以攻击。与具有更多计算空间和时间的基本Bloom过滤器编码相比，该方法已被证明可提供更多的隐私

III. PROPOSED WORK

在本节中，我们详细讨论了建议的EPPRL方法，用于在数据集成过程中实现更好的隐私。

A. Attack Method V

攻击方法V利用公共可用数据和bigram(q=2)从用于PPRL的Bloom Filter编码中重新标识属性值。
攻击方法V的步骤包括Q-gram候选集的生成和属性值的重新标识。此攻击研究哈希到特定位位置或通过频繁的纯文本值和频繁的Bloom Filter编码对齐的Q-gram集。

B. Proposed Approach

enhanced approach for privacy preserving record linkage (EPPRL)
EPPRL的输入可以是数据集DSI和DSJ，记录分别为RI和RJ，输出将是DSI和DSJ的匹配记录。

EPPRL Steps:

Step I: Initial Agreement and Setting parameters for Bloom filter encoding

在这里插入图片描述

Step II: Hardened Bloom filter Encoding

在此步骤中，将两个散列函数H1(x)和H2(x)应用于属于记录Ri和Rj的每个Bigram x上，分别编码成Bloom过滤器BFI和BFJ。
Bloom Filter强化是通过用随机比特（至少约5-10%）混淆平衡Bloom Filter编码数据来执行的。进一步，对所得到的Bloom Filter编码进行了否定。强化Bloom Filter编码的步骤顺序突出显示如下：
在这里插入图片描述

Step III: Matching and Similarity Calculation of Bloom filter encoded data

数据集DSI和DSJ的记录之间的匹配和计算使用DICE系数相似度计算如下：
在这里插入图片描述
c是bfi和bfj中设置为1的公共位位置的数目，bfi、bfj分别是bfi、bfj中设置为1的位位置的数目。

然后，将观察到的编码Bloom Filter数据之间的相似性值与用户定义的阈值进行比较，以获得记录之间的匹配和不匹配如下：
在这里插入图片描述

IV. DISCUSSION AND ANALYSIS

从属性值的查准率、查全率、可度量性和可重新识别性等方面进行了分析。

PPRL使用了两个北卡罗来纳州选民登记(NCVR)数据集

所提出的EPPRL方法对于大量的数据值具有良好的性能。

对基本Bloom Filter编码、平衡Bloom Filter编码和EPPRL的精度§、召回率®和F-measure(F)进行了计算，如表I所示。我们利用数据集1和数据集2中的200条记录，初步进行了基本Bloom Filter编码、平衡和EPPRL编码技术的实验。
观察到真阳性(TP)、假阳性(FP)和假阴性(FN)，这些值用于计算P、R和F，如下所示：
在这里插入图片描述

表1表明，DICE系数阈值为0.85的基本Bloom Filter编码的准确率、查全率和F测度均高于平衡Bloom Filter和EPPRL编码技术。此外，本文提出的EPPRL方法的查准率、查全率和F测度都比平衡Bloom Filter编码技术有更好的性能。