Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges论文总结

最新推荐文章于 2024-07-22 20:36:44 发布

清辉夜凝924

最新推荐文章于 2024-07-22 20:36:44 发布

阅读量395

点赞数

分类专栏： 2022暑假学期文章标签：大数据

本文链接：https://blog.csdn.net/MashiroSakura/article/details/126677284

版权

2022暑假学期专栏收录该内容

50 篇文章 0 订阅

订阅专栏

Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges论文总结

Abstract
1 Introduction
2 Background
- 2.1 Overview and Challenges ofPPRL
- 2.2 The PPRL Process and Techniques Used
3 Privacy Aspects and Techniques for PPRL
4 Scalability Techniques for PPRL
5 Multi-party PPRL
- 5.1 Multi-party Private Blocking Techniques
- 5.2 Multi-party Private Comparison and Classiﬁcation Techniques
6 Open Challenges
7 Conclusions

Abstract

隐私保护记录链接 (PPRL) 旨在通过识别和链接与不同方持有的多个数据源中的同一现实世界实体相对应的记录来解决此问题，而不会泄露有关这些实体的任何敏感信息。

大数据的 PPRL 提出了几个挑战，其中三个主要挑战是：

1.由于大数据应用程序中的海量和数据流，可扩展到多个大型数据库，
2.在大数据应用程序中实现高质量的链接结果存在大数据的多样性和准确性
3.保护大数据集合中代表的实体的隐私和机密性。

在本章中，我们描述了 PPRL 在大数据背景下的挑战，调查了 PPRL 的现有技术，并为未来的研究提供了方向。

1 Introduction

在本章中，我们回顾了现有的挑战和技术，并讨论了大数据 PPRL 的研究方向。

我们在第 2 节中提供了初步信息，并在第 3 节中回顾了 PPRL 的现有隐私技术。

然后，我们在第 4 节讨论可扩展性挑战和解决 PPRL 可扩展性的现有方法。

在第 5 节中，我们描述了 PPRL 在多个数据库上的挑战和现有技术，这是许多大数据应用程序越来越需要的新兴研究途径。

在第 6 节中，我们讨论了大数据 PPRL 的研究方向，

在第 7 节中，我们用所涵盖主题的简要总结来结束本章。

2 Background

2.1 Overview and Challenges ofPPRL

Scalability:
Linkage quality:
Privacy:

2.2 The PPRL Process and Techniques Used

Data Pre-processing and Masking:
Blocking/ﬁltering:
Comparison:
Classiﬁcation:
Clerical review:
Evaluation:
Tools:

3 Privacy Aspects and Techniques for PPRL

PPRL 需要考虑多个隐私维度，其中四个主要维度是：(1) 参与方的数量及其角色，(2) 对手模型，(3) 隐私攻击，以及 (4) 数据屏蔽或编码技术。

3.1 PPRL Scenarios

pprl场景
双方、三方

3.2 Adversary Models

PPRL 技术中假设了不同的对手模型，包括最常用的诚实但好奇（HBC）和恶意模型[164]。

Honest-but-curious (HBC) or semi-honest
Malicious恶意的
Covert and accountable computing

3.3 Attacks

Dictionary attack
Frequency attack
Cryptanalysis attack密码分析攻击
Composition attack组合攻击
Collusion

3.4 Data Masking or Encoding

Auxiliary:

Pseudo random function (PRF)伪随机函数
Reference values参考值
Noise addition噪声添加
Differential privacy差分隐私

Blocking:

Phonetic encoding语音编码
Generalization techniques泛化技术

Matching:

Secure hash-encoding安全哈希编码
Statistical linkage key (SLK)统计联动密钥
Embedding space嵌入空间
Encryption schemes加密方案
Bloom ﬁlter
Count-min sketches

PPRL 项目中的其他隐私方面包括公钥/私钥对的安全生成和交换、员工保密协议以减少内部威胁，以及加密通信、安全连接和安全服务器以减少外部威胁。

3.5 Bloom Filters

在这里插入图片描述

4 Scalability Techniques for PPRL

在接下来的两个小节中，我们将讨论几种针对 PPRL 提出的阻塞和过滤方法。然后，我们简要讨论并行 PPRL，到目前为止，它只受到了有限的关注。

我们将主要假设使用专用链接单元（如图 2 左侧所示）以及使用 Bloom 过滤器对记录进行屏蔽（如第 3.5 节所述）

4.1 Blocking Techniques

Phonetic Blocking:语音阻塞
Blocking with Reference Values:使用参考值阻塞
LSH-based blocking:基于lsh的阻塞
Evaluation of Private Blocking Approaches：私有组织方法的评估

4.2 Filtering Techniques

Length Filter:
PPJoin for PPRL:
Multi-bit Trees:
PPRL for Metric Space Similarity Measures:用于度量空间相似性度量的 PPRL：
Comparative Evaluation:

4.3 Parallel PPRL

Parallel PPRLwith GPUs:
Hadoop-based Parallel PPRL:

5 Multi-party PPRL

迄今为止，大多数工作都集中在链接来自两个数据库（或各方）的记录。只有一些方法研究了来自三个或更多数据库的链接记录 [75, 104, 118, 122, 127, 130, 131, 160]，其中大多数仅限于精确匹配或仅匹配分类数据，如下所述。然而，正如第 1 节中描述的示例应用程序所示，多个大数据应用程序越来越需要链接来自多个数据库的数据。在下文中，我们描述了现有的多方私有阻塞技术以及多方 PPRL (MP-PPRL) 的私有比较和分类技术。

5.1 Multi-party Private Blocking Techniques

Tree-based approaches:
Linkage unit-based approaches:

5.2 Multi-party Private Comparison and Classiﬁcation Techniques

多方私有比较和分类技术

Secure Multi-party Computation (SMC)-based approach:基于安全多方计算 (SMC) 的方法：
Generalization-based approaches:基于泛化的方法：
Probabilistic data structure-based approaches:基于概率数据结构的方法：

6 Open Challenges

6.1 Improving Scalability

6.2 Improving Linkage Quality

6.3 Dynamic Data and Real-Time Matching

动态数据与实时匹配

6.4 Improving Security and Privacy

6.5 Evaluation, Frameworks, and Benchmarks

评估、框架和基准

6.6 Discussion

7 Conclusions

我们提供了理解 PPRL 的应用、过程和挑战所需的背景材料，并且我们回顾了现有的 PPRL 方法来理解文献。基于对现有技术的分析，我们讨论了 PPRL for Big Data 未来工作的几个有趣且具有挑战性的方向。

随着组织中大数据的发展趋势，需要更多的研究来开发允许以保护隐私、有效和高效的方式链接多个大型数据库的技术，从而促进当前数据分析和挖掘的新方法。由于可扩展性、质量和隐私保护方面的挑战，这些都是不可行的。

清辉夜凝924

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges论文总结

Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges论文总结
复制链接

扫一扫