Composite Bloom Filters for Secure Record Linkage论文总结


Linkage论文总结)


Abstract

与其他 PRL 方法相比,将字段值标记化和散列到 Bloom 过滤器 (BF) 中可实现更高的链接准确性和效率,但编码可能会因基于频率的密码分析而受到损害。

我们的目标是采用 BF 编码技术以最小的准确性和效率牺牲来减轻此类攻击。

为了实现这些目标,我们引入了一种基于统计信息的方法来生成 BF 编码,该编码集成了来自多个字段的比特,其频率可证明与最小数量的字段相关联。


1 INTRODUCTION

为了确保在集成时进行公正的分析,必须以减少个人信息重复和碎片化的方式合并记录。

记录链接依赖于通常表征个人的识别信息,通常称为字段(例如,姓氏和街道地址)。但是,各种法规和政策禁止披露标识符,因为共享此类信息可能会侵犯个人隐私。

PRL 是一个多样化的概念,其特点是有几类方法。一类是基于secure multiparty computation安全多方计算 (SMC),它利用了强大的加密协议。
这些协议可以在不泄露任何信息的情况下进行相似性比较,除了协议的输入和输出。虽然原则上是安全的,但实现 SMC 所需的计算成本高昂的加密技术不能很好地扩展到非常大的数据库。
这是因为记录链接方法从根本上说是统计过程,需要模型开发和随后的模型适应度评估。

我们在这项工作中关注的第二类 PRL 使用基于数据转换的较弱形式的安全性。这些转换后的值(称为编码)用作 PRL 的输入。
基于 Bloom 过滤器 (BF) 中的编码值的转换优于其他方法。
我们称之为 field-level BF字段级BF(FBF)编码,将记录中的每个字段值映射到相应的BF。

FBF 可能容易受到基于频率的攻击

在本文中,我们展示了如何通过 FBF 的区分能力在统计上告知这种策略,并且可以使这种策略对基于频率的攻击具有可量化的鲁棒性。我们将我们的解决方案称为 record-level BF记录级 BF (RBF) 编码。

建议的 RBF 生成方法使用一个可调参数,该参数确定将位从 RBF 映射回从中提取它的 FBF 所需的计算复杂度。这种方法是数据驱动的,可以针对任何数据集进行定制,以实现所需的准确性和安全性。

1.1 Contributions

  • Enhanced Security:
    编码方法通过数据驱动的位选择过程从 FBF 编码生成 RBF。这种编码利用了一个可调的安全参数,对基于频率的密码分析攻击具有可量化的抵抗力

  • Top Rank Preserving:
    生成的 RBF 提供了从明文空间到密文空间的转换,从而以高可能性保留要记录的最近邻居。这为 PRL 在密文空间中以保持高度准确性的方式应用铺平了道路。

  • Empirical Evaluation:
    真实选民名单
    使用统计假设检验来证明 RBF 策略比其竞争对手提供了更好的排名保留。

1.2 Outline

  • 在第 2 节中,我们总结了文献中提出的 FBF 生成方法及其已知漏洞。我们还描述了本研究中使用的数据集,以便在本文中用于说明性示例。
  • 第 3 节描述了我们的 RBF 编码方法。
  • 在第 4 节中,我们描述了第 5 节中提出的评估的实验框架。
  • 在第 6 节中,我们讨论了这些结果的实际意义、局限性和未来的工作。
  • 第 7 节讨论相关研究,第 8 节总结工作。

2 BACKGROUND

2.1 Notation and Framework

符号和框架:
一条记录由 f 个字段组成,要链接的记录由两个数据库持有者提供,称为 Alice 和 Bob。 A 表示 Alice 提供的记录数据集,|A|是记录数,ax 表示集合 A 中的第 x 条记录,ax[i] 表示记录 ax 中第 i 个字段的值,其中 i ∈{1,…,f}。类似地,B、|B|、by 和 by[i] 对应于 Bob 提供的记录集。

在 PRL 过程中,Alice 和 Bob 对他们的记录进行本地编码,并将编码发送给第三方 Charlie,在那里进行比较。目标是使 Charlie 能够正确地将所有记录对(即 A×B)分类为 M(Predicted Matches预测匹配)和 U(Predicted Non-matches预测不匹配)类,以便 M 中的记录对指代同一个人(即, True Matches)和 U 中的记录对指的是不同的个体(即 True Non-matches)。

2.2 Field-Level Bloom Filter Encodings

FBF编码的具体步骤是:

  • 每个字段值都被视为一个字符串,并分解为一组长度为 n 或 n-gram 的标记。考虑到第一个和最后一个字符,该值在每端填充 n - 1 个空白字符。
  • 使用k 个散列函数将每个n-gram 散列成一个长度为m 位的FBF。我们使用 mFBF (mRBF) 来表示 FBF (RBF) 中的位数。
  • 可以使用基于集合的相似性度量来比较编码,例如 Dice 系数在这里插入图片描述
    α 和 β 分别是 Alice 和 Bob 贡献的 FBF 编码

在这里插入图片描述
图 1. RBF 编码生成。 1) FBF 参数化和生成。 FBF 的大小基于预期的字段长度。在这个例子中,每个 FBF 有两个散列函数。 2) 合格位识别。以粗轮廓显示的更安全的位被标识为包含在 RBF 中。 3) 字段加权。确定RBF中25%的比特取自Forename,RBF中50%的比特取自Surname,RBF中25%的比特取自City。 4)RBF参数化和生成。确定 mRBF 并根据字段权重对合格位进行采样。 5)RBF置换。 RBF 中的位是随机排列的。左右显示的 RBF 中设置的位数分别为 11 和 15。交叉点的位数为 11,产生的 Dice 系数为 0.84。左右两个字段的随机排列是相同的吗?还有上面的那几条线

FBF 编码揭示了字段值(例如,特定名称)和位位置(即 n-gram)的频率分布。鉴于基于频率的攻击旨在破坏简单的替换密码,因此至关重要的是要问“Charlie2 可以从 FBF 中推断出多少关于明文的知识?”

简而言之,Charlie 观察在 FBF 编码中设置位的频率,并尝试将位映射回它们对应的 n-gram。
FBF 编码是易受攻击的,因此 Charlie 可以推断出一些明文值。
随着 n 的增长,成功的可能性会降低。这是因为随着 n 的增加,不同的 n-gram 的数量也会增加,这导致用于成功密码分析的频率相关信息的数量减少。

我们提出了一种独立于 n 的原则性机制,以提高基于 BF 的编码的安全性。

2.4 Dataset

使用公开的北卡罗来纳州选民登记 (NCVR) 数据库


3 RECORD-LEVEL BLOOM FILTERS

1)FBF参数化和生成。应选择 FBF 参数以最大限度地提高安全性。
2) 合格位识别。应选择从 FBF 中采样的位以最大限度地提高安全性。
3) 字段加权。应用一种方案来确定应该从每个 FBF 中采样多少位。
4)RBF参数化和生成。建立 RBF 参数并从 FBF 中采样比特,从而产生 RBF 编码。
5)RBF置换。比特是使用 Alice 和 Bob 同意的排列随机排序的。

3.1 FBF Parameterization and Generation

FBF 参数化和生成:

在密码分析中,Charlie 试图将 RBF 中的位映射到从中提取它们的字段。成功后,Charlie 可以使用 FBF 作为输入发起攻击。
因此,评估 Charlie 可以在多大程度上将 RBF 中的位映射到提取它们的字段对于表征 RBF 的安全性很重要。
我们通过对在两种 FBF 参数化方法下设置位的频率进行建模来考虑 Charlie 可以收集多少信息:
1)静态 FBF 大小调整
2)动态 FBF 大小调整

3.1.1 Static FBFSizing

在静态 FBF 大小调整策略中,k 和 m 值在所有字段中保持不变,而不管字段中要编码的 n-gram 的预期数量。
在这种情况下,观察设置为 1 的位百分比可以让 Charlie 确定一些关于编码值长度和编码中使用的散列函数数量的信息。
较短的字段(例如 Gender)会导致 FBF 编码设置为 1 的位数少于较长的字段(例如 Forename)

因此,当静态参数应用于每个字段时,Charlie 可以观察到 FBF 中设置的位百分比。有了这些信息,Charlie 可以推断出过滤器中编码值的长度以及编码中使用的散列函数的数量。

3.1.2 Dynamic FBFSizing

我们建议动态调整 Bloom 过滤器的大小(即设置 mFBF 值),以便在每个字段的 FBF 中将相同百分比的位设置为 1。
此外,我们让在 Bloom 过滤器编码中设置给定位的预期频率等于 0.5。
这种选择的理由是为了最大化熵,从而最大化安全性,应该设置一半的比特。
在这种情况下,Charlie 会观察到大约一半的位被设置为 1,并且几乎不会获得关于哪些字段值在过滤器中编码的信息。

更正式地说,让设置位 p 的预期频率等于 0.5,让 g 是存储在 FBF 中的项目数(例如,n-gram)。某个位保持未设置值为 0 的概率是 p = 1−(1/m)kg [24]。因此,如果我们为 k 选择一个值并将其保持不变,我们可以通过求解上式中的 m 来计算 FBF 中所需的位数。这产生:
在这里插入图片描述
然后,我们可以测量与每个字段相关的信息内容,如平均字段值长度所示,并相应地调整 FBF 长度。

NCVR 数据集的 mFBF 值(即每个 FBF 中的位数)如表 1 所示。此外,动态大小的 FBF 中跨字段设置的平均位数如图 2 所示。可以看出动态大小的 FBF 比静态大小的 FBF 具有更均匀的跨场平均频率。这表明当 FBF 被动态调整大小时,攻击者更难确定从哪个 FBF 中提取了一个位。

在这里插入图片描述
在这里插入图片描述

3.2 Eligible Bit Identification

合格位标识:
我们介绍了一种基于统计信息的方法,用于确定应从每个 FBF 中采样哪些比特,以便生成的 RBF 能够抵抗频率分析。

当 Charlie 试图确定在 RBF 中编码的明文值时,第一步可能是根据设置位的频率将 RBF 位映射回从中提取它们的字段。如果字段内比特的频率分布在各个字段中是不同的,则尤其如此。

图 3 显示了在所有静态和动态大小的 FBF 中设置位的频率的热图。该图表明,分类字段的频率分布,例如性别,(图 3(e)和(f))的分布不如基于字符串的字段(图 3(a)-(d))
在这里插入图片描述

动态大小的 FBF 比静态大小的 FBF 分布更均匀,攻击者在攻击中使用此频率信息将更加困难。

图 3 表明查理仍然可以利用信息。具体而言,设置位的频率是不统一的。通过将频率分解为范围,Charlie 可以将 RBF 中的位映射到从中提取它们的 FBF。

图 4 说明了这种情况是如何发生的。在该图中,x 轴表示频率范围,除以百分之一。 y 轴描绘了每个范围内包含位的 FBF 的数量和标识。请注意,动态 FBF 中频率范围为 [0.78, 0.79] 的位表明这些位必须是从城市 FBF 中提取的(见图 4(b))。这个图的纵轴没有看懂是什么意思啊
在这里插入图片描述

为了限制 Charlie 可以将 RBF 位映射回从中提取它们的 FBF 的程度,我们引入了安全约束 q。该约束表明,基于对设置位的频率的分析,只有可以映射回至少 q 个字段的位才能包含在 RBF 中。
例如,很明显应该避免只能映射回单个字段的位,例如动态 FBF 中频率范围为 [0.78, 0.79] 的位,因为这些位只能从字段 City (见图 4(b))

通过避免将比特设置为单个字段或少量字段的唯一频率,生成的 RBF 编码更加安全。
这是因为攻击者更难利用频率信息将 RBF 位映射回从中提取它们的 FBF。数据持有者可以通过利用频率信息仅允许可以映射回≥ q 字段的位包含在 RBF 中来建立安全约束 q这里也不是很理解
因此,较高的 q 值意味着需要额外的计算来破坏 RBF 编码,从而提高安全性。

3.3 Field Weighting

字段加权:
用于确定应该从每个 FBF 中采样的 RBF 中的比特百分比,我们将其称为字段权重。

字段加权机制基于字段的区分能力(即它支持链接的程度)。我们假设根据基于每个字段的区分能力的加权采样位将提供促进高度准确的记录链接的 RBF。

例如,从直觉上看,姓氏在解析身份方面比性别更有用,因此很自然地设计一种方法,从姓氏对应的 FBF 中采样更多位。

如果 Alice 和 Bob 知道每个字段的辨别力,他们可以相应地加权每个字段。在缺乏这些知识的情况下,可以使用概率方法估计权重。一种这样的方法是基于 Fellegi 和 Sunter 的工作,我们称之为 FS 域加权方法。该方法根据字段一致性的条件概率计算每个字段的一致性权重 wa 和不一致权重 wd

我们调整 FS 权重来衡量每个字段的相对区分能力。
我们提出了一种将一致权重和不一致权重组合成一个权重 w[i] 的机制,该权重与每个字段 i 相关联:
在这里插入图片描述
与每个字段相关的权重是通过将单个字段的范围归一化为所有字段的一致和不同意权重的范围之和而得出的。由此产生的权重是衡量每个领域与其他领域相比的相对歧视能力的指标。
在这里插入图片描述

3.4 RBF Parameterization and Generation

RBF参数化和生成
为了确定要从每个 FBF 中提取的实际位数,我们必须为要包含在 RBF 中的位数选择一个值(即 mRBF)

为了提供基线,我们假设满足每个字段的安全约束的所有合格位都应包含在 RBF 中。给定这个假设和与每个字段相关的权重,我们可以计算 mRBF 的下限,其中每个字段都被完整包含并以计算的相对区分能力。我们取这些值中的最大值为 mRBF。

表 3 中说明了 NCVR 的这种计算。在此示例中,我们设置 q = 1。
在这里插入图片描述
如果字段 City 的 214 位长 FBF 包含 16% 的记录级布隆过滤器,则 mRBF 必须为 1,315 位.由于这是所有领域所需的 mRBF 的最大值,因此将其选为 RBF 的长度。然后根据字段权重选择要从每个 FBF 中提取的位数,如表 2 所示。这些位是随机选择的,有替换的,以构建 RBF。通过这样做,RBF 之间的距离度量将与每个字段的贡献成正比。

4.3 Evaluation Measures

评价措施

4.4 Implementation Details

实施细节


5 RESULTS

5.1 Impact of Corruption

使用邻域测试来测量不同编码方法提供的准确性。图 5 展示了邻域测试的结果。
在这里插入图片描述
这些发现表明,面对该数据集中存在的错误类型,RBF 在准确测量相似性方面更加稳健。

根据场的鉴别能力,来自 FBF 的加权位采样比均匀位采样执行得更好。因此,我们建议在 RBF 创建中进行加权位采样,并在以下实验中进一步探索此变体。

图 6 展示了对不同长度的 RBF 进行邻域测试的结果。这些结果表明,随着 mRBF 的降低,RBF 编码能够准确测量相似性的程度也会降低。
在这里插入图片描述

5.2 Neighborhood Test Results

邻域测量结果
我们创建了两个额外的环境;一种腐败程度低,一种腐败程度高。

动态/加权 RBF 和 CLK 之间的比较结果如图 7 所示。随着数据集中的损坏量减少,RBF 和 CLK 之间的差异也减少。然而,据观察,RBF 在所有损坏级别上都优于 CLK。
在这里插入图片描述

5.3 Relationship Between the Security Constraint q and Accuracy

安全约束q与准确度的关系

安全约束 q 表示在给定频率范围内表示的字段数,并用于限制 RBF 生成的比特选择。

我们首先考虑在安全约束 q 的不同值下符合 RBF 包含的比特数。该分析的结果如图 8 所示,它展示了安全约束 q 与符合 RBF 包含条件的比特数之间的关系。
在这里插入图片描述

安全约束 q 和有资格包含在 RBF 中的比特数之间的关系意味着 q 和准确度之间也可能存在关系。为了检验这种关系,我们对在各种安全约束下生成的 RBF 进行邻域测试。这些结果(如图 9 所示)表明,当引入更严格的安全约束时,准确度会略微下降(当 q = 1 时,981 个样本的相邻等级为 1,当 q = 5 时,970 个样本的相邻等级为 1) .但是,这种关系似乎不会显着影响准确性,也不是线性的。为了进一步探索这种关系,在压缩 RBF 的背景下检查了安全约束的影响。这些结果如图 10 所示。同样,结果表明随着 q 的增加,准确度趋于降低。这表现为相邻等级为 1 的样本数量减少。
在这里插入图片描述
在这里插入图片描述
结果表明 q 在应用非常小的 RBF 大小(mRBF ≤ 100)之前不会显着影响准确性。

5.4 Summary of Results

  • 第 5.1 节表明,RBF 编码提供了比几种控制措施更准确的记录对相似性计算,这表明 RBF 在面对该数据集中存在的错误类型时在准确测量相似性方面更加稳健。此外,RBF 生成中的加权位采样比跨 FBF 的均匀位采样提供更高的精度。还证明了随着 RBF 的压缩(即 mRBF 值降低),准确度略有下降。
  • 第 5.3 节展示了执行严格的安全约束 q 会消除一些 FBF 位,使其不包含在 RBF 中,但不一定会导致结果编码比较准确性的高成本。在严格的安全约束 q 值下创建的 RBF 仅比没有任何约束的 RBF 准确度稍差。

6 DISCUSSION

这项工作描述了一种用于 PRL 的编码策略,该策略增强了文献中提出的 BF 编码的安全性,同时保留了它们在记录链接中的效率和准确性。在本节的其余部分,我们将证明 RBF 编码方法满足这些属性。

6.1 Record-Level Bloom Filters are Resistant to a Known Attack

记录级布隆过滤器可抵抗已知攻击:

6.2 Record-Level Bloom Filters are Efficient

记录级布隆过滤器是高效的:

6.3 Limitations and Future Work

尽管我们的工作有很多优点,但未来的研究还有几个途径。

  • 首先,索引,也称为阻塞,旨在通过限制被评估和分类的记录对的数量来降低记录链接的计算复杂性。在隐私保护阻塞算法 方面进行了各种研究,初步工作表明,RBF 编码是合适的数据结构,可用作记录链接过程中阻塞方法的输入。阻塞不会影响 RBF 的结构,因此不会影响这种数据结构的安全性,但可能会限制 RBF 的匹配精度。我们计划在未来的工作中探索 RBF 数据结构的这方面。
  • 其次,我们认为 RBF 的相似性是记录对相似性的准确度量,可以直接在 PRL 中使用,以取代明确的记录对比较步骤,在该步骤中,将字段相似性合并为记录对相似性的单一度量
  • 最后,我们计划研究如何在 Bloom 过滤器编码的上下文中处理缺失的字段值。

7 RELATED RESEARCH

如前所述,已经为 PRL 提出了几类方法。

  • 一类使用安全多方计算 (SMC) 技术,该技术允许在不泄露有关输入记录的任何信息的情况下执行两条记录之间的相似性比较。这方面的一个例子是一种 SMC 方法,用于计算字符串之间的编辑距离。然而,**这些技术的计算量很大,并且在实践中不能很好地扩展。
  • 另一类执行 PRL 的方法建议对每个字段值进行加密,并将编码发送给集中的第三方,然后第三方通过比较编码的字段值来执行记录链接。使用传统加密方法的缺点是失去了在加密空间中检测字段相似性的能力。这源于加密方法不是保持相似性的转换这一事实。因此,在明文空间中表现出高度相似性的记录(例如,“John”和“Jon”)在密文空间中可能非常不同。因此,真正匹配的编码可能被分类为预测不匹配。

8 CONCLUSIONS AND FUTURE WORK

在本文中,我们提出了一种构建用于 PRL 的 RBF 编码的方法。我们的方法是灵活的,因为它提供了多种设计选择,用户可以根据安全性、编码相互比较的速度以及基于编码。我们的实证研究表明,使用动态大小的 FBF 和从 FBF 中以与场的区分能力相称的方式采样随机位对于促进准确相似性计算的安全 RBF 编码很重要。最重要的是,我们已经证明新的编码能够抵抗密码分析攻击,这种攻击已经成功地对抗了先前提出的 FBF 编码形式。我们注意到我们的方法为私有记录链接系统提供了基础,但强调需要额外的工作来确保其在完整的记录链接框架中的应用,这将需要对字段加权、阻塞和链接进行协调。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值