论文研读系列——“Quantifying and Mitigating Privacy Risks for Tabular Generative”

Quantifying and Mitigating Privacy Risks for Tabular Generative

arxiv [Submitted on 12 Mar 2024]

链接:arXiv:2403.07842

代码:https://anonymous.4open.science/r/DP-TLDM-317C

摘要

本文讨论了如何使用生成模型创建的合成数据在不泄露私人信息的情况下共享数据,重点是按行和列结构的表格数据。它强调了先前研究的局限性,这些研究仅考虑了少数类型的隐私攻击和生成模型,尤其是那些基于生成对抗网络(GAN)的研究。作者探讨了哪些表格生成模型在数据实用性和隐私性之间提供了最佳的平衡,尤其是针对成员推断攻击,以及差分隐私技术如何增强这种平衡。他们推出了一种名为DP-TLDM的新模型,该模型结合了自动编码器和潜在扩散模型,并使用差分隐私技术来改善数据质量和隐私。该研究包括对五种最先进的表格合成器针对八种隐私攻击的广泛评估,表明DP-TLDM在保持高数据质量的同时提供了强大的隐私保障。

1 INTRODUCTION(引言)

高质量的合成数据,通过生成模型获得,越来越多地被用来增强和替代真实数据,为个人和企业提升数据的效用性。由于合成数据类似于真实数据,它可以加速数据驱动的知识发现,同时遵守数据保护法规,例如限制收集和获取真实数据的GDPR。这些模型在行业中的应用的一个关键要求是它们能够保护真实数据的隐私。以拥有不能自由共享且受漫长监管审计的病人数据集的医疗机构为例。或者,通过信任方首先训练生成模型,可以生成一整套病人的合成数据,并分发给所有机构,这些机构反过来基于这些数据设计自己的医学分析。

虽然生成模型的重点是产生与真实数据高度相似且不可区分的合成数据,但合成数据引起的真实数据隐私泄露的日益关注。这些研究突出了合成数据在特定领域的隐私漏洞,尤其是在图像处理中,并涉及各种生成模型,包括贝叶斯网络、生成对抗网络(GANs)和最近的扩散过程。这些隐私风险在攻击中具体化,能够在不同假设下获取训练数据,即白盒与黑盒攻击。

在表格数据领域,Anonymeter是第一个专注于合成表隐私和效用权衡的框架,并介绍了三种与表格数据相关的隐私攻击:i)通过合成数据集中的独特属性组合识别个体的单挑攻击;ii)通过在合成数据集中搜索邻居将两个或多个记录关联起来的可链接性攻击;iii)通过合成数据集推断未公开属性值的属性推断攻击。尽管阐明了量化隐私-效用权衡的重要性,Anonymeter专注于基于表格的GAN模型,留下了不同表格生成模型的权衡行为未被解决的问题。更重要的是,先前的研究在很大程度上未探索采用隐私增强策略,如差分隐私,对合成表格数据的影响。

差分隐私(DP)作为在发布数据时保护个人隐私问题的解决方案,已经受到广泛关注。为了将DP纳入深度神经模型的训练,带有随机梯度下降(SGD)的DP-SGD通过添加由隐私预算控制的校准统计噪声来模糊梯度更新。主要有两种DP分析框架,(ε,δ)-DP和新兴的f-DP,前者使用ε来定义隐私预算,后者使用分离值,即错误正面和错误负面之间的实际权衡函数与理想权衡函数(无隐私泄露)之间的距离,较小的隐私预算或分离值会导致向梯度添加更多的模糊噪声,降低底层模型的性能。在图像分类和合成中实现有意义的ε或分离值,同时获得令人满意的学习成果是一个长期的挑战。DP在表格生成模型上的隐私增强尚未探索,特别是涉及不同流派的生成模型。

作者认识到使用合成数据和当前解决方案之间存在两个研究差距:(i) 哪种类型的表格生成模型提供了有效的隐私-效用权衡,例如,GANs与扩散模型;(ii) 如何应用和参数化DP-SGD以增强合成表的隐私保证。在本文中,作者通过进行广泛的实证分析来解决这些问题,量化和改进表格生成模型的隐私-效用权衡。作者考虑了五种表格合成器,涵盖了高斯Copulas、CopulaGAN、CTGAN、ADS-GAN和表格扩散模型(TabDDPM)。作者对合成数据效用的评估指标包括数据相似性、可区分性和下游效用。至于隐私风险,作者考虑了四种攻击,即单挑、可链接性、属性推断攻击(AIA)和成员推断攻击(MIA)。在这些攻击中,MIA采用了更强的对抗性假设,利用了对生成模型及其训练数据集的了解。为了在不同对抗性知识下深入分析MIA,作者考虑了5种类型的MIA攻击,本研究共评估了八种攻击。作者对四个数据集的广泛评估突出显示,与三种其他基于GAN的合成器相比,表格扩散模型在数据质量方面取得了显著的成绩。在隐私风险方面,TabDDPM在单挑和可链接性方面表现令人满意,但在属性和特别是成员推断攻击方面表现不佳。

基于作者实证研究的见解,他们提出了一种新的差分隐私潜在表格扩散模型DP-TLDM,由自动编码器和扩散模型组成。与现有的TabDDPM不同,作者首先使用自动编码器网络将表格数据编码为连续的潜在空间。这带来了统一和紧凑的分类变量表示的优势,与典型的一位有效编码形成对比。然后,他们使用潜在表示作为输入,输入到骨干扩散模型中,该模型将数据合成捕获为一系列去噪过程。为了保护所提出的潜在表格扩散模型免受隐私攻击,他们使用DP-SGD训练自动编码器。作者遵循f-DP框架,通过分离度量——一种量化随机猜测与DP保护算法在假阳性和假阴性之间最大差异的度量来精确参数化DP-SGD。他们对DP-TLDM的广泛评估与DP-CTGAN和DP-TabDDPM进行了比较,其中DP-SGD用于训练CTGAN和TabDDPM,显示出卓越的性能——在保持较高合成数据效用的同时,显著降低了特别是针对MIA的隐私风险。作者做出了以下具体贡献:

  • 对五种表格合成器在八种隐私攻击下的效用-隐私权衡进行了广泛和深入的实证评估,包括强大的非盒子成员推断攻击。
  • 作者的关键见解是,与高斯Copula模型和基于GAN的模型相比,表格扩散显示出更高的合成数据质量。它能够抵御单挑、可链接性和属性推断攻击,但在MIA方面显示出较高的隐私风险。
  • 作者设计了DP-TLDM,这是一种新颖的潜在表格扩散模型,通过DP-SGD训练,使用批量裁剪对梯度进行裁剪,并采用高斯噪声机制。作者遵循f-DP框架,并采用理论分离值作为隐私度量。
  • 作者对DP-TLDM与DP-CTGAN和DP-TabDDPM的评估表明,DP-TLDM能够有效地降低隐私风险,同时在所有隐私预算值下保持高合成数据质量。因此,DP-TLDM显示出与其他合成器类似的隐私风险水平,但在数据相似性方面优于它们平均35%,在下游任务的效用方面高出15%,在数据可辨识性方面高出50%。

2 RELATED STUDIES(相关工作)

在本节中,作者提供了生成模型的一般概述,这些模型最初是为图像数据设计的。特定于表格的生成模型将在第3节中讨论。

生成模型在机器学习中获得了广泛的关注,从简单的到深度的生成架构都有。基本的机器学习模型,包括高斯混合模型(GMM)和朴素贝叶斯,使用联合概率分布来表示和采样数据。虽然这些模型是最早用于数据生成的模型之一,但它们通常表达能力有限。深度生成模型在捕获复杂数据模式方面表现出色,现在被更广泛地使用。

生成对抗网络(GANs)通常由一个生成器和一个鉴别器组成,是最流行的深度生成模型之一。基于流的生成模型,也称为归一化流,是另一种显式模型,它使用一系列可逆变换函数将简单分布转换为固有的复杂数据分布。扩散模型是最近在图像合成、文本到图像生成、时空数据建模等领域表现出色而出现的生成模型。这些模型通过前向扩散过程操作,对原始数据进行噪声化,然后通过随后的逆过程去噪数据。

尽管深度生成模型的出色表现和应用,最近的工作也对这些模型的潜在隐私风险提出了重大关注。关于隐私攻击的相关研究可以按各种攻击类型分类,包括(i)成员推断攻击(MIA),推断某个特定数据记录是否在训练集中;(ii)属性推断攻击,推断训练数据的敏感属性;(iii)复制攻击,重现训练数据或隐藏的生成模型;(iv)对抗性攻击,在推理阶段通过精心制作的输入数据欺骗生成模型;(v)后门攻击,在训练阶段向模型中插入隐藏的漏洞。

成员推断攻击可以进一步分类为白盒、无盒和黑盒攻击,这取决于模型信息的可用性。在白盒攻击中,攻击者可以访问生成器的内部,有几项工作提出了基于损失的技术来对扩散模型进行MIA。同时,来自生成器的梯度信息可以被用来对GANs进行MIA。在灰盒设置中,攻击者对受害者模型拥有部分控制权。在这种情况下,通过调整生成器的潜在代码来攻击GANs,而从不同的扩散步骤中获得的中间生成结果被用来推断查询在扩散模型中的成员资格。最具有挑战性和现实性的情况发生在黑盒设置中,攻击者先前的知识仅限于生成的样本。有一项工作通过训练来自GANs的阴影鉴别器来输出成为训练样本的信心分数。其他计算量较小的攻击依赖于概率的波动或查询记录与其邻居之间的语义距离来推断成员资格。

已经研究了隐私增强方法来解决潜在的隐私风险。简单的防御策略,如微调、去重训练数据和数据增强已被提出以反击恶意攻击。尽管这些技术易于实施,但它们并没有表现出很高的有效性。更复杂的策略已经为不同的生成模型进一步开发。例如,privGAN、RoCGAN和PATE-GAN通过对模型架构的战略性更改,为GANs提供隐私保护。虽然这些策略表现出增强的有效性,但它们本质上是模型特定的,限制了它们在各种生成模型范式中的更广泛适用性。

相反,差分隐私已被证明是防止隐私泄露的更通用和有效的防御机制。DP-SGD及其变体已被广泛采用,用于深度生成模型的隐私训练。DPGAN直接将DP-SGD算法应用于GANs中的鉴别器组件。相反,GS-WGAN在从鉴别器到生成器的梯度传输上实现了DP-SGD。DP-SGD的效用也超越了GANs,并应用于表格数据合成的归一化流。此外,在新兴的扩散模型的背景下,也考虑了DP-SGD的适应。一项研究应用了经典的DP-SGD算法,并进行了一项修改,涉及在计算损失时采样单个数据点的多个时间步。在此基础上,另一项研究进一步展示了三种其他技术的效用,即预训练、增强多样性和修改的时间步采样。虽然DP-SGD被认为是隐私泄露的强大对策,但它以样本质量和更长的训练时间为代价。

3 RISK-UTILITY QUANTIFICATION(风险效用量化)

本节介绍作者的风险-效用量化框架,如图1所示。给定原始数据集,合成器生成合成数据,然后从两个关键角度进行评估:效用和隐私风险。效用量化方面,将报告三个指标:i) 相似性,ii) 可区分性,iii) 效用。下面我们将提供有关所使用的合成器和效用指标的更多细节。关于隐私风险,作者考虑四种不同的攻击:i) 单挑,ii) 链接,iii) 属性推断攻击(AIA),iv) 成员推断攻击(MIA),以衡量合成数据中的不同隐私风险维度。下面我将描述这些攻击和相关指标。

在这里插入图片描述

3.1 生成模型

作者的框架中采用了六种生成模型,包括基于GAN的、统计和基于扩散的模型,具体如下所述。

基于GAN的模型。作者考虑了三种不同的生成对抗网络(GAN)模型。首先,CTGAN专注于条件生成的GAN,并采用特定模式的归一化处理连续列中的非高斯分布,并使用条件生成器来解决分类列中的类别不平衡问题。其次,CopulaGAN通过使用基于累积分布函数的变换和高斯Copulas来改进CTGAN。它还使用似然方法进行推断,增强了CTGAN学习真实数据趋势的能力。第三,ADS-GAN是一个条件GAN框架,它在生成合成数据的同时最小化重新识别风险。通过在生成器的损失函数中纳入记录级可识别性度量,实现了一定程度的匿名化。

统计模型。这里我们考虑高斯Copula模型。在高斯Copula(GC)方法中,使用训练数据获得一个高斯联合概率分布,该分布捕获边际分布和相互依赖结构。

扩散模型。扩散模型最近已成为计算机视觉和NLP中生成模型的领先范式。在作者的框架中,我们考虑了TabDDPM,它将扩散模型扩展到表格数据集,并优于现有的GAN/VAE替代方案。它采用高斯扩散过程,这是原始DDPM的关键组成部分,有效地对数值列进行建模。它还使用多项式扩散过程来模拟分类和二元特征,并引入跨类别的均匀噪声来破坏数据。

上述模型是遵循两个Python库来实现表格数据合成的:i) 作者使用Synthetic Data Vault 1对CTGAN、CopulaGAN和高斯Copula进行实现,ii) 使用Synthcity 2对贝叶斯网络、ADS-GAN和TabDDPM进行实现。为确保公平的比较分析,所有模型中使用的神经网络具有相同的架构,包括三个多层感知器(MLP)层,每层包含256维。

3.2 效用指标

为了评估合成数据的质量,作者使用三个指标,即相似性、可区分性和效用来评估合成结果是否与原始数据相似以及是否具有实际用途。这些指标遵循合成数据生成中的常见实践,并报告为0-100范围内的分数。

相似性。相似性指标衡量合成数据中列的分布和相互关系的密切程度,确保合成数据捕获原始数据的统计模式和特征。我们的相似性指标由五个相似性度量组成:

  • 列相似性计算原始和合成列之间的相关性,对于数值列使用皮尔逊系数,对于分类列使用Theil’s U。
  • 相关性相似性衡量每对列的相关系数之间的相关性。首先计算数值对的皮尔逊相关性,分类对的Theil’s U,以及混合情况的相关比率。然后计算这些系数之间的相关性。
  • 统计相似性使用Spearman’s Rho相关性来关联合成数据和原始数据中数值列的描述性统计(最小值、最大值、中位数、均值和标准差)。
  • Jensen-Shannon相似性使用Jensen-Shannon距离来衡量原始和合成列的概率分布之间的距离。使用1减去这个距离,以便更高的分数更好,如其他指标。
  • Kolmogorov-Smirnov相似性使用Kolmogorov-Smirnov距离来衡量每个原始和合成列的累积分布之间的最大差异。同样,使用1减去距离,以便更高的分数更好。

可区分性。此指标衡量合成数据与真实数据的相似性,以至于二元分类器(XGBoost)无法区分两者。作者通过分类器的概率和均匀分布(任何类别的50%概率)之间的平均绝对误差来衡量这一点,当分类器无法区分两个数据集时为0。使用1减去平均绝对误差,以便更高的分数更好。

效用。效用衡量合成数据在下游机器学习任务中的表现如何,就像原始数据一样。对于每一列,使用3折交叉验证训练分类器或回归器(XGBoost)从其余列预测该列。模型要么在真实数据上训练,要么在合成数据上训练,但在这两种情况下,都在真实数据的保留集上进行评估。通过计算分类列的宏观平均F1分数的90百分位数和连续列的D2绝对误差分数(限制在0和1之间)来计算下游性能。效用分数来源于合成数据的下游性能与真实数据的下游性能的比率。

3.3 威胁模型

在作者的威胁模型中,我们阐明了攻击者在潜在攻击中需要知道的先验知识,重点关注合成器、合成数据和辅助数据。

对于合成器知识,假设攻击者对合成器的底层机制一无所知,符合现实的黑盒场景。此外,为了保守的隐私风险评估,我们假设攻击者可以完全访问合成数据,预计最坏的情况,如公共发布或在线API可访问性。这些假设是故意选择的,以便在最坏的情况下进行全面和弹性的隐私风险评估,考虑到潜在漏洞。关于辅助数据,不同攻击所需的必要信息各不相同。对于单挑,不需要关于辅助数据的先验知识。然而,对于链接性、属性推断和成员推断攻击,假设攻击者知道来自训练数据的目标记录。

特别是,对于链接性攻击,所需的辅助数据包括来自原始数据集的两个不相交的属性集,以便攻击者可以使用合成数据集确定两个记录属于同一个体。攻击使用目标集的两个不相交的属性集来识别每个记录在中的最近邻。如果它们至少有一个共同的邻居,则建立和之间的链接。

3.4 Attacks

如前所述,为了量化表格数据合成器的隐私风险,作者在评估框架中采用了四种不同的攻击。其中三种攻击——单挑、可链接性和属性推断攻击(AIA)——是根据欧洲通用数据保护条例(GDPR)的指导方针得出的。此外,作者还纳入了成员推断攻击(MIA),这是一个已经建立但之前在[27]中未被考虑的方面。这增强了隐私量化框架,允许他们测量合成数据中公认的额外隐私维度。单挑、可链接性和AIA的实现遵循开源库Anonymeter,而成员推断攻击(MIA)则遵循TAPAS工具箱。

单挑攻击旨在创建来自合成数据集的谓词,这些谓词可以识别出现在训练数据集中的个人。例如,如果攻击者能够确定数据集中只有一个具有年龄:25、身高:168、体重:62和胆固醇:1的个体,那么这个个体就被认为是“被单挑出来的”。

前面应用了两种算法,单变量算法和多变量算法。这两种算法都是基于这样的直觉:合成数据中的独特值或独特值的组合也可能在原始数据中是独特的。在单变量算法中,为每个属性抽取独特的值以获得随机选择的谓词。在多变量算法中,这是为了获得多变量谓词而对完整记录进行的操作。

可链接性攻击。可链接性攻击旨在关联两个或更多的记录。当攻击者拥有原始数据集的两个不相交的属性集,例如年龄和身高,以及体重和胆固醇水平,这样他就可以使用合成数据集来确定两个记录是否属于同一个人。攻击使用目标集的两个不相交的属性集来识别每个记录在中的最近邻居。如果它们至少有一个共同的邻居,则建立和之间的链接。

属性推断攻击(AIA)。AIA攻击涉及根据合成数据集中的信息推断未公开的属性值。如果攻击者知道某个人的某些属性,例如:年龄:25,身高:168,体重:62,他们可能使用合成数据集来推断该人的胆固醇水平。给定由一组已知属性表征的目标记录,再次应用最近邻算法来执行AIA攻击。对于每个目标记录,攻击者在由目标记录中的属性定义的子空间内寻找最近的合成记录。这个最近的合成记录分配给秘密属性的值作为攻击者的猜测。

成员推断攻击(MIA)。MIA攻击旨在确定特定的数据记录是否出现在训练数据集中。MIA攻击在研究社区中获得了大量关注,导致提出了各种策略来推断合成数据点的成员身份。在作者的框架中,他们采用了三种基于影子建模、距离和概率的MIA策略。这组多样化的策略适应了一系列对抗性场景,认识到了不同的对手能力和限制。

在影子建模方法中,给定一个与训练数据集具有相同分布的参考数据集,以及一个目标记录,从采样并训练影子模型以生成来自和来自的合成数据集。然后在标记的合成数据集和上训练分类器,以预测目标记录在训练数据中的存在。为了减少高维性和抽样不确定性的影响,不是直接在和上训练,而是使用基本特征集进行训练,而HistGroundhog则使用直方图特征集,具有每个数据属性的边际频率计数。

基于距离的MIA策略,如Closest DistanceHamming和Closest Distance-L2,侧重于识别目标记录在合成数据集中的局部邻域。攻击者基于目标记录与合成数据集中最近邻居之间的距离来预测成员身份,使用经验选择的阈值。

最后,基于概率的Kernel Estimator使用密度估计器来拟合合成数据,利用估计的可能性来预测成员身份。如果可能性超过阈值,则预测目标记录是训练数据集的成员。

在评估目标记录的MIA风险时,执行所有五种策略,并报告与最高隐私风险相关的结果,以提供保守的风险分析,考虑到最坏的情况。

指标。相对风险指标。攻击者成功率是成员推断攻击(MIA)的常见指标。然而,对于单挑、可链接性和属性推断攻击,存在区别:某些信息可能从整个数据集 X o r i X_{ori} Xori的固有模式中推断出来,而不仅仅是从训练数据集及其合成对应物中。原始数据集 X o r i X_{ori} Xori被分成两个不相交的分区: X t r a i n X_{train} Xtrain X c o n t r o l X_{control} Xcontrol。然后通过比较攻击者针对来自 X t r a i n X_{train} Xtrain X c o n t r o l X_{control} Xcontrol​ 的目标的成功率来量化隐私风险:

R = τ ^ t r a i n − τ ^ c o n t r o l 1 − τ ^ c o n t r o l R={{\hat{\tau}}_{train} - {\hat{\tau}}_{control} \over 1 - {\hat \tau}_{control}} R=1τ^controlτ^trainτ^control

这里, τ ^ t r a i n {\hat{\tau}}_{train } τ^train表示当目标仅来自 X t r a i n X_{train} Xtrain 时攻击者的成功率,而 τ ^ c o n t r o l {\hat{\tau}}_{control} τ^control 表示当目标来自 X c o n t r o l X_{control} Xcontrol​​ 时的成功率。

4 EMPIRICAL ANALYSIS(经验分析)

在本节中,作者将他们的风险-效用量化框架应用于公开可用的数据集,这些数据集已在表格数据分析和合成中广泛使用。作者的代码可在以下匿名存储库中找到:https://anonymous.4open.science/r/DP-TLDM-317C。

4.1 数据集

作者使用了四个数据集,其中两个较小(最多20000个样本),两个较大。由于较小的数据集通常会使模型容易过拟合,通过比较这些数据集,我们可以了解数据集大小和过拟合如何影响合成数据的质量和隐私。表1列出了数据集的一些特征。贷款数据集包含有关5000名客户的人口统计信息。它有14个特征,分为4种不同的测量类别,包括二元、区间、序数和名义特征。住房数据集涉及加利福尼亚某个地区的房屋,并提供基于1990年人口普查数据的汇总统计信息。它包括20640个实例,有1个分类特征和9个数值特征,总共有207个缺失值。成人数据集包含有关个人年收入和相关变量的信息。它包含48842个实例,总共有14个混合数据类型特征,以及6465个缺失值。心血管心脏疾病数据集包含有关心血管疾病风险因素的详细信息,包括70000个实例,有13个混合类型列。对于所有数据集,每个合成器生成的合成数据集的大小与训练数据集的大小相同,用于评估。对于隐私评估,每个训练集随机抽取了1000条记录,用于每次攻击。

4.2 隐私-效用权衡

在这里插入图片描述
在这里插入图片描述

表2展示了使用第3.1节中描述的五种生成模型对所有四个数据集的合成数据的效用和风险方面的详细量化结果。作者展示了之前讨论的三种效用指标(即,相似性、可区分性和效用),其中较高的分数表示更好的性能,以及作者考虑的四种攻击(单挑、链接、AIA、MIA)的隐私风险,其中较低的风险表示更好的性能。由于空间原因,作者将五种MIA攻击的详细统计数据保留在附录中。比较合成器,TabDDPM生成的合成数据质量最高,超过了其他合成器。在所有四个数据集中,TabDDPM在相似性、可区分性和效用方面始终获得前三名的排名。CopulaGAN在相似性和可区分性方面表现非常好,但在效用方面得分相对较低。高斯Copula位于另一个极端,其在所有数据集中的表现均不如其他合成器。尽管TabDDPM在生成高质量合成数据方面表现出色,但它呈现出最高的风险,特别是在链接和MIA方面。相反,GAN家族和高斯Copula虽然在合成数据质量上没有取得优越的表现,但在链接性、AIA和MIA攻击方面表现出更大的弹性。这表明:

高质量的合成数据往往与原始数据非常相似,可能导致真实数据的暴露增加,并增加被攻击者利用的脆弱性,尤其是在TabDDPM中显示出来。

在所有类型的攻击中,AIA和MIA始终显示出更大的效力,这体现在它们在四个数据集中观察到的平均风险较高。 值得注意的是,链接性、AIA和MIA攻击一贯对表现出较优越效用的合成器,如TabDDPM和ADS-GAN,表现出更有害的影响。相反,单挑攻击成为对效用较低的合成器的主要威胁,如高斯Copula和Copula GAN。

这种差异突显了合成器对不同攻击方法的复杂漏洞。虽然链接性、AIA和MIA通常依赖于合成数据的全面属性,但单挑攻击基于在合成数据集中识别异常值。这表明:

次优质量的合成数据可能会向潜在攻击者披露更多关于异常值的信息,如单挑攻击。相反,高质量的合成数据倾向于透露更多关于原始数据的全面和整体信息,如链接性、AIA和MIA攻击所示。

关于MIA策略,NaiveGroundhog (NG)、HistGroundhog (HG) 和 Closest Distance-Hamming (CD-H) 策略达到了60%或更高的成功率,表现出显著的有效性。值得注意的是,当应用于TabDDPM合成器时,HistGroundhog始终优于其他MIA策略。相比之下,NaiveGroundhog和Closest Distance-Hamming策略在应用于其他合成器时表现出更好的效果。相比之下,Closest Distance-L2 (CD-L) 和 Kernel Estimator (KE) 策略表现出相对较低的有效性。鉴于MIA的一半目标记录来自训练数据,这两种策略的成功率始终接近50%,这与随机猜测的表现相近。这一观察强调了MIA策略对于不同合成器模型的有效性存在微妙的变化。它表明:

复杂的阴影建模方法(如HistGroundhog)在应用于高质量的合成数据时表现出更高的有效性。相比之下,更简单的阴影建模方法(如NaiveGroundhog)和基于距离的策略(如Closest Distance-Hamming)在合成数据质量不佳时可能更有效。

在所有数据集中,链接性攻击表现出较高的平均隐私风险,特别是当应用于较小的数据集,如贷款和住房时。对于其他攻击,与不同数据集大小相关的趋势不太明显。在合成数据效用方面,较大的数据集(成人和心血管)平均展现出比较小的数据集(贷款和住房)更低的相似性和可区分性得分。这些发现表明较大的数据集对合成器来说更具挑战性,因为增加的数据集大小可能会引入更大的多样性和复杂性,从而使数据合成更加困难。然而,随着数据集大小的增加,效用分数更高。这种现象可能归因于效用指标是通过对下游机器学习任务的性能来衡量的,这些任务本身就受到训练数据大小的影响。在我们的实验中,合成数据集的大小保持与相应的真实数据集相同。因此,较小的真实数据集导致较小的合成数据集,这可能会在机器学习任务中产生次优的性能和较低的效用分数。这使我们得出结论,在实验中:

较大的数据集在数据合成任务方面更具挑战性,可能对对抗性隐私攻击的脆弱性较小。

5 DP-TLDM

该小节介绍了一个名为DP-TLDM(Differentially Private Tabular Latent Diffusion Model)的模型,该模型通过整合差分隐私技术来增强隐私保护。以下是该小节各部分的简要概括:

5.1 Diffusion Primer(扩散入门)

这一小节提供了扩散模型的基础知识。扩散模型通过一个前向过程将数据逐渐加入噪声,最终形成高斯噪声,然后通过一个逆向过程从噪声中恢复数据。这个过程涉及到马尔可夫链和神经网络来学习和预测噪声,以实现数据的去噪。

5.2 Tabular Latent Diffusion Model (TLDM)(表格潜在扩散模型)

在这一部分,作者提出了TLDM,这是一个将连续和分类特征转换到统一潜在空间的模型,然后在这个空间内应用扩散模型。与TabDDPM不同,TLDM使用自动编码器来处理特征的异质性,避免了一位有效编码的复杂性,并保留了特征间的相关性。这个模型的设计旨在通过联合嵌入特征到潜在表示中来保持原始数据的相互关系。

5.3 Differential Privacy Framework(差分隐私框架)

这一小节介绍了差分隐私的概念和𝐴? -DP框架,这是一种提供更紧密隐私界限的差分隐私分析方法。𝐴? -DP框架通过引入一个权衡函数来量化错误正负和错误负正之间的权衡,从而提供了比传统(𝜀,𝛿)-DP更精确的隐私评估。

5.4 Two-stage DP-SGD Training(两阶段DP-SGD训练)

在这一部分,作者详细描述了DP-TLDM的训练过程,包括使用DP-SGD(差分隐私随机梯度下降)算法来训练自动编码器,以及如何在训练过程中应用批量裁剪和高斯噪声。这个过程包括两个阶段:首先训练自动编码器组件,然后在潜在特征空间上训练扩散模型。这种两阶段训练方法旨在在保持数据效用的同时,通过DP机制减少隐私风险。

整体而言,5 DP-TLDM部分描述了一个新颖的模型,该模型结合了自动编码器和扩散模型,并通过差分隐私技术来提高合成数据的隐私保护,同时尽可能保持数据的效用。

6 EVALUATION ANALYSIS(评价分析)

在本节中,作者评估了所提出的DP-TLDM模型在前述四个数据集上的表现,并使用了第4节中相同的质量和隐私风险指标。作者的目标是回答DP-TLDM是否能够在不降低合成数据质量的情况下利用DP机制提供的隐私保护。作者特别将DP-TLDM与另外两个基线进行了比较,即DP-CTGAN和DP-TabDDPM,这两个模型分别代表了最先进的基于GAN和基于扩散的生成模型,并且都应用了DP-SGD训练算法。

在这里插入图片描述

评估设置。与第4节相同,作者使用相似性、可区分性和效用来衡量合成数据的质量。作者评估了四种攻击(单挑、可链接性、AIA和MIA)的隐私风险,隐私度量是理论分离值,代表随机猜测和DP-SGD之间的第一类和第二类错误之间的最大差异。作者评估了三个分离值,即[0.1, 0.15, 0.2],其中较低的值表示更强的隐私级别。我们在给定的𝜋?值下对每个生成器进行DP-SGP训练,直到分离预算耗尽。为了公平比较,我们还在所有三个合成器上应用了批量裁剪。

6.1 概述

作者首先呈现了DP-CTGAN、DP-TabDDPM和DP-TLDM在表3中的总体性能。特定的分离值是0.1,这是作者评估中最具有意义的DP保护级别。作者总结的关键观察结果如下:

DP-TLDM在数据质量和隐私风险缓解之间实现了最佳平衡。在所有DP保护的合成器中,DP-TLDM一致地展示了最有利的权衡。它在相似性、可区分性和效用分数上取得了最高的成绩,同时具有可比的经验风险。与此形成鲜明对比的是,两种基线方法在添加DP后未能实现任何有意义的数据质量分数,而DP-TLDM在所有四个数据集中的性能均优于其对手多达3倍。DP保护在DP-TabDDPM和DP-TLDM上显著降低了MIA的风险。值得注意的是,在考虑的所有攻击中,最明显的增强是在MIA的背景下观察到的,其中风险从大约90显著降低到大约10。由于MIA利用了有关训练数据集和模型的额外信息,其对合成数据隐私的潜在影响尤为严重。然而,这里采用的DP机制有效地缓解了这些风险,成功地抵御了MIA。在DP和非DP版本之间,隐私风险和数据质量度量的显著降低是显而易见的。在所有三个DP保护的合成器中,与非DP版本相比,隐私风险明显降低,代价是数据质量的降低。这一现象在所有四个数据集和对所有四种攻击的评估中都有观察到。特别值得注意的是,在心脏数据集上观察到的显著增强。具体来说,在单挑攻击(风险从平均60降低到大约20)、AIA(从平均20降低到2)和MIA(从平均90降低到10)中观察到了显著的改进。DP-TLDM在考虑数据质量时显示出对DP机制的最高韧性。在所有三个数据合成器中,DP-CTGAN和DP-TabDDPM在数据质量上都经历了显著下降,特别是在可区分性方面,分数从92(98)显著下降到9(9)在CTGAN(TabDDPM)上对住房数据集。相比之下,DP-TLDM设法保持了合成数据的高质量。我们将DP-TLDM的稳健性能归因于其两阶段训练设计。通过在自动编码器网络上实现DP-SGD,并利用扩散背景来抵消自动编码器中质量降低的影响,DP-TLDM有效地保持了数据效用,尽管应用了DP。

在这里插入图片描述

在这里插入图片描述

6.2 隐私预算的影响

在这里,作者研究了不同分离值对模型性能的影响,并在图5中总结了结果。"Average Privacy Risk"指的是单挑、可链接性和AIA的平均风险分数。较高的分离值提供了有限的隐私保护,但也引入了对合成数据质量的较小扰动。因此,作者提出了以下值得注意的观察结果。

DP-TLDM在不同隐私预算水平下一致地展现出最佳的合成数据质量。在所有四个数据集中,三个合成器之间出现了明显的差异层次,DP-TLDM超过了DP-TabDDPM和DP-CTGAN。这可以由作者两阶段训练方案的两个好处来解释:首先,扩散模型(DDPM)本质上对噪声输入表现出极大的韧性。通过将自动编码器与DP集成,算法输出了添加了扰动的潜在表示。扩散模型的韧性确保了高质量合成数据的生成。其次,隔离的两阶段训练方法,其中隐私预算仅分配给自动编码器阶段,确保了扩散过程可以在不进一步损害隐私的情况下细化和生成合成数据。这种有效的隐私预算使用允许生产出不仅高质量而且严格遵守所需隐私约束的合成数据。不需要额外隐私预算的扩散阶段,作为自动编码器阶段引入的隐私保护扰动导致的数据效用潜在降低的补偿机制。

在不同数据集和分离值下,DP-TLDM和DP-CTGAN通常具有更高的隐私风险。然而,DP-TLDM产生的显著优越的数据质量确实导致了更大的隐私泄露。尽管如此,考虑到隐私风险是在0到100的范围内量化的,所有数据集都表明我们的模型保持了低于8的隐私风险。这表明算法成功地在数据质量和隐私保护之间实现了最佳平衡。

总的来说,这些发现强调了:

DP-TLDM的两阶段训练方案,利用扩散模型对噪声输入的固有鲁棒性,在等效隐私水平下实现了三个DP生成器之间的最佳隐私-效用权衡。

7 CONCLUSION(结论)

受到合成表格作为隐私保护数据共享解决方案日益普及的激励,作者首先对一组广泛的表格生成模型进行了实证分析,通过八种攻击(包括单挑、可链接性、AIA和五种不同的MIA)的视角,解决了隐私-效用权衡的关键方面。实验结果突出了各种生成模型之间的不同性能特征,其中表格扩散模型展示了最高的数据质量,尽管在MIA方面存在显著的隐私漏洞。然后,作者设计了DP-TLDM,这是一种通过DP-SGD训练的潜在表格扩散模型,遵循f-DP框架。DP-TLDM的关键组成部分是:i) 自动编码器网络,用于将表格数据转换为紧凑且统一的潜在表示;ii) 潜在扩散模型,用于合成潜在表格。得益于双组件设计,并通过在自动编码器上应用DP-SGD,DP-TLDM获得了严格的DP保证,以分离值衡量。作者对DP-TLDM的评估结果显示,与其他使用DP-SGD训练的表格GAN和常规表格扩散模型相比,DP-TLDM能够有效减轻合成数据的实证隐私风险,同时实现比其他合成器高15-50%的数据质量。

最后感谢你看到这里,以上观点均为本人对原论文的个人理解,仅作个人学习使用,如有错误或侵权,麻烦联系我,本人定修改或删除。

祝你天天开心,多笑笑。

  • 16
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值