论文粗读系列-5:Quantifying and Mitigating Privacy Risks for Tabular Generative Models

本文探讨了如何量化和减少表格生成模型中的隐私风险,重点关注成员推理攻击。作者通过实证分析比较了不同合成器在面对隐私攻击时的效用和隐私权衡,提出DP-TLDM模型,实现了更高的数据相似性和效用,同时提供更强的隐私保护。
摘要由CSDN通过智能技术生成

论文粗读系列-5

Quantifying and Mitigating Privacy Risks for Tabular Generative Models

1.简介

PETS

链接:[2403.07842] Quantifying and Mitigating Privacy Risks for Tabular Generative Models (arxiv.org)

生成模型合成数据成为保护隐私的数据共享解决方案。这种合成数据集应与原始数据相似,而不会泄露可识别的私人信息。

表格合成器的骨干技术植根于图像生成模型,从生成对抗网络(gan)到最近的扩散模型。

最近的先前工作揭示了表格数据的效用与隐私权衡,揭示和量化了合成数据的隐私风险。然而,重点仅限于少数隐私攻击和表格合成器,特别是基于gan的,而忽略了成员推理攻击和防御策略,即差分隐私【differential privacy】。为了弥补这一差距,作者解决了两个研究问题:

(i)考虑到更广泛的合成器集合及其抗成员推理攻击的性能,哪种类型的表格生成模型可以实现更好的效用-隐私权衡;

(ii)差分私有随机梯度下降算法(DP-SGD)可以实现哪些额外的隐私保证。

作者首先进行了详尽的实证分析,强调了五种最先进的表格合成器在对抗八种隐私攻击时的效用与隐私权衡,并特别关注了成员推理攻击。考虑到表格扩散具有高数据质量和高隐私风险的特点,作者提出了差分私有表格潜在扩散模型DP-TLDM,该模型由自动编码器网络对表格数据进行编码和潜在扩散模型对潜在表进行合成组成。在新兴的𝑓-DP框架之后,作者应用DP- sgd与批处理裁剪相结合来训练自编码器,并使用分离值作为隐私度量,以更好地捕获DP算法的隐私增益。作者的实证评估表明,DP-TLDM能够实现有意义的理论隐私保障,同时也显著提高了合成数据的效用。具体来说,与其他dp保护的表格生成模型相比,DP-TLDM在数据相似性方面平均提高了35%,在下游任务的效用方面提高了15%,在数据可辨别性方面提高了50%,同时保持了相当水平的隐私风险。

2.方法

在这里插入图片描述

从原始表格数据开始,合成数据由带或不带DP保护的合成器生成。然后从两个关键角度评估这些合成数据:效用(相似性、可辨别性和效用)和隐私风险(挑出、链接性、属性推理攻击(AIA)和成员推理攻击(MIA))。

3.狗头保命

以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。

不摆了,加训!

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值