Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges论文总结
Abstract
隐私保护记录链接 (PPRL) 旨在通过识别和链接与不同方持有的多个数据源中的同一现实世界实体相对应的记录来解决此问题,而不会泄露有关这些实体的任何敏感信息。
大数据的 PPRL 提出了几个挑战,其中三个主要挑战是:
- 1.由于大数据应用程序中的海量和数据流,可扩展到多个大型数据库,
- 2.在大数据应用程序中实现高质量的链接结果存在大数据的多样性和准确性
- 3.保护大数据集合中代表的实体的隐私和机密性。
在本章中,我们描述了 PPRL 在大数据背景下的挑战,调查了 PPRL 的现有技术,并为未来的研究提供了方向。
1 Introduction
在本章中,我们回顾了现有的挑战和技术,并讨论了大数据 PPRL 的研究方向。
我们在第 2 节中提供了初步信息,并在第 3 节中回顾了 PPRL 的现有隐私技术。
然后,我们在第 4 节讨论可扩展性挑战和解决 PPRL 可扩展性的现有方法。
在第 5 节中,我们描述了 PPRL 在多个数据库上的挑战和现有技术,这是许多大数据应用程序越来越需要的新兴研究途径。
在第 6 节中,我们讨论了大数据 PPRL 的研究方向,
在第 7 节中,我们用所涵盖主题的简要总结来结束本章。
2 Background
2.1 Overview and Challenges ofPPRL
- Scalability:
- Linkage quality:
- Privacy:
2.2 The PPRL Process and Techniques Used
- Data Pre-processing and Masking:
- Blocking/filtering:
- Comparison:
- Classification:
- Clerical review:
- Evaluation:
- Tools:
3 Privacy Aspects and Techniques for PPRL
PPRL 需要考虑多个隐私维度,其中四个主要维度是:(1) 参与方的数量及其角色,(2) 对手模型,(3) 隐私攻击,以及 (4) 数据屏蔽或编码技术。
3.1 PPRL Scenarios
pprl场景
双方、三方
3.2 Adversary Models
PPRL 技术中假设了不同的对手模型,包括最常用的诚实但好奇(HBC)和恶意模型[164]。
- Honest-but-curious (HBC) or semi-honest
- Malicious恶意的
- Covert and accountable computing
3.3 Attacks
- Dictionary attack
- Frequency attack
- Cryptanalysis attack密码分析攻击
- Composition attack组合攻击
- Collusion
3.4 Data Masking or Encoding
Auxiliary:
- Pseudo random function (PRF)伪随机函数
- Reference values参考值
- Noise addition噪声添加
- Differential privacy差分隐私
Blocking:
- Phonetic encoding语音编码
- Generalization techniques泛化技术
Matching:
- Secure hash-encoding安全哈希编码
- Statistical linkage key (SLK)统计联动密钥
- Embedding space嵌入空间
- Encryption schemes加密方案
- Bloom filter
- Count-min sketches
PPRL 项目中的其他隐私方面包括公钥/私钥对的安全生成和交换、员工保密协议以减少内部威胁,以及加密通信、安全连接和安全服务器以减少外部威胁。
3.5 Bloom Filters
4 Scalability Techniques for PPRL
在接下来的两个小节中,我们将讨论几种针对 PPRL 提出的阻塞和过滤方法。然后,我们简要讨论并行 PPRL,到目前为止,它只受到了有限的关注。
我们将主要假设使用专用链接单元(如图 2 左侧所示)以及使用 Bloom 过滤器对记录进行屏蔽(如第 3.5 节所述)
4.1 Blocking Techniques
- Phonetic Blocking:语音阻塞
- Blocking with Reference Values:使用参考值阻塞
- LSH-based blocking:基于lsh的阻塞
- Evaluation of Private Blocking Approaches:私有组织方法的评估
4.2 Filtering Techniques
- Length Filter:
- PPJoin for PPRL:
- Multi-bit Trees:
- PPRL for Metric Space Similarity Measures:用于度量空间相似性度量的 PPRL:
- Comparative Evaluation:
4.3 Parallel PPRL
- Parallel PPRLwith GPUs:
- Hadoop-based Parallel PPRL:
5 Multi-party PPRL
迄今为止,大多数工作都集中在链接来自两个数据库(或各方)的记录。只有一些方法研究了来自三个或更多数据库的链接记录 [75, 104, 118, 122, 127, 130, 131, 160],其中大多数仅限于精确匹配或仅匹配分类数据,如下所述。然而,正如第 1 节中描述的示例应用程序所示,多个大数据应用程序越来越需要链接来自多个数据库的数据。在下文中,我们描述了现有的多方私有阻塞技术以及多方 PPRL (MP-PPRL) 的私有比较和分类技术。
5.1 Multi-party Private Blocking Techniques
- Tree-based approaches:
- Linkage unit-based approaches:
5.2 Multi-party Private Comparison and Classification Techniques
多方私有比较和分类技术
- Secure Multi-party Computation (SMC)-based approach:基于安全多方计算 (SMC) 的方法:
- Generalization-based approaches:基于泛化的方法:
- Probabilistic data structure-based approaches:基于概率数据结构的方法:
6 Open Challenges
6.1 Improving Scalability
6.2 Improving Linkage Quality
6.3 Dynamic Data and Real-Time Matching
动态数据与实时匹配
6.4 Improving Security and Privacy
6.5 Evaluation, Frameworks, and Benchmarks
评估、框架和基准
6.6 Discussion
7 Conclusions
我们提供了理解 PPRL 的应用、过程和挑战所需的背景材料,并且我们回顾了现有的 PPRL 方法来理解文献。基于对现有技术的分析,我们讨论了 PPRL for Big Data 未来工作的几个有趣且具有挑战性的方向。
随着组织中大数据的发展趋势,需要更多的研究来开发允许以保护隐私、有效和高效的方式链接多个大型数据库的技术,从而促进当前数据分析和挖掘的新方法。由于可扩展性、质量和隐私保护方面的挑战,这些都是不可行的。