差分隐私paper

summermoonlight

已于 2023-01-16 01:38:31 修改

阅读量962

点赞数 2

分类专栏：论文阅读文章标签：大数据人工智能

于 2023-01-15 18:16:01 首次发布

本文链接：https://blog.csdn.net/qq_45034517/article/details/128693568

版权

论文阅读专栏收录该内容

7 篇文章 1 订阅

订阅专栏

文章目录

Differentially Private Data Publishing and Analysis: A Survey
Optimizing error of high-dimensional statistical queries under differential privacy
Trading Private Range Counting over Big IoT Data
Differentially Private and Utility Preserving Publication of Trajectory Data
Understanding the Sparse Vector Technique for Differential Privacy
PrivTrie: Effective Frequent Term Discovery under Local Differential Privacy
Survey on improving data utility in differentially private sequential data publishing
EKTELO: A Framework for Defining Differentially-Private Computations
LightDP: towards automating differential privacy proofs
分割：Differentially private spatial decompositions
Differential Privacy Techniques for Cyber Physical Systems: A Survey
PrivBayes: Private Data Release via Bayesian Networks
Privacy-Preserving Crowd-Sourced Statistical Data Publishing with An Untrusted Server
Application of Local Differential Privacy to Collection of Indoor Positioning Data
Cryptϵ: Crypto-Assisted Differential Privacy on Untrusted Servers
Answering range queries under local differential privacy
Graphical-model based estimation and inference for differential privacy

Differentially Private Data Publishing and Analysis: A Survey

TKDE17
cite：250

差异隐私是近几十年来被广泛探索的一种基本且流行的隐私模式。这项调查提供了两个研究方向的全面和结构化概述：差异隐私数据发布和差异隐私数据分析。我们在查询类型、最大查询数量、效率和准确性方面比较了不同的私有数据发布机制。我们确定了两个用于差异私有数据分析的基本框架，并列出了每个框架中使用的典型算法。根据输出精度和效率对结果进行了比较和讨论。此外，我们还提出了未来研究和可能应用的几个可能方向。

Optimizing error of high-dimensional statistical queries under differential privacy

VLDB18
cite：92
icde12
icde13
用于回答敏感数据库上的谓词计数查询集的差异性私有算法有很多应用。收集个人层面数据的组织，如统计机构和医疗机构，用它们来安全地发布汇总表。然而，现有的技术只在一小类查询工作负载上是准确的，或者是极其缓慢的，特别是在分析超过一或两个维度的数据时。在这项工作中，我们提出了HDMM，一种回答谓词计数查询工作负载的新的差分私有算法，它对高维数据集特别有效。HDMM使用隐式矩阵表示查询工作量，并利用这种紧凑的表示方法来有效地搜索（一个子集）差分私有算法的空间，以获得一个能以高精确度回答输入查询工作量的算法。我们的经验表明，在各种低维和高维数据集上，HDMM可以有效地回答查询，而且误差比最先进的技术要低。

Trading Private Range Counting over Big IoT Data

2019 IEEE 39th International Conference on Distributed Computing Systems (ICDCS)
cite：307
面对物联网大数据统计分析的普遍商品化，数据隐私成为最重要的问题之一。目前的解决方案无法彻底解决数据定价方面的隐私问题，也无法保证统计结果的效用。因此，本文通过考虑三个因素，研究了物联网数据的私有统计结果交易问题。具体来说，本文提出了一个新颖的范围统计结果交易框架。该框架应用了基于抽样的方法来生成近似的计数结果，出于隐私考虑，这些结果被进一步扰乱，然后被释放。这些结果在理论上被证明可以实现无偏性、有界方差以及在差分隐私下的强化隐私保证。此外，还为交易结果提出了一种定价方法，该方法被证明对套利攻击是免疫的。该框架通过对2014年CityPulse智能城市数据集上不同范围的空气污染水平的估计进行了评估。分析和评估结果表明，我们的框架大大降低了范围计数近似的误差；最佳扰动方法使私人计数满足指定的近似程度，同时提供强大的隐私保证。

Differentially Private and Utility Preserving Publication of Trajectory Data

IEEE Transactions on Mobile Computing 2019
cite：70

icde12、13
具备GPS功能的移动设备和交通导航服务的普遍普及，推动了轨迹数据的增长，Uber Movement和纽约市出租车数据的发布就是证明。尽管轨迹数据可以为许多人产生有价值的见解和增值服务，但在尊重移动用户隐私的同时发布这些数据一直是一个长期的挑战。在本文中，我们提出了DP-Star，这是一个发布轨迹数据的方法论框架，具有差异化的隐私保证以及高效用保存。DP-Star依赖于几个组件的新颖组合。首先，DP-Star的规范化算法使用最小描述长度指标来总结原始轨迹，使用它们的代表点，从而实现其信息内容的精确性和简洁性之间的理想权衡。第二，DP-Star构建了一个密度感知的网格，确保空间密度能够被保留下来，尽管为满足差异化隐私而添加了噪音。第三，DP-Star通过一个私有的行程分布保留了轨迹终点之间的相关性，并通过一个私有的马尔科夫移动模型保留了中间点。最后，DP-Star使用中值长度估计方法来估计用户的行程长度，并生成既能保持差异隐私又能保持高效用的合成轨迹。我们的实验比较表明，DP-Star在轨迹效用和准确性方面明显优于现有方法。

Understanding the Sparse Vector Technique for Differential Privacy

VLDB17
cite：114
稀疏向量技术（SVT）是一种满足差分隐私的基本技术，它的独特之处在于人们可以在不付出任何隐私成本的情况下输出一些查询答案。SVT已被用于交互式设置，其中人们试图回答一连串预先不知道的查询，以及非交互式设置，其中所有查询都是已知的。由于有可能节省隐私预算，许多SVT的变体已经被提出，并被用于隐私保护的数据挖掘和发布。然而，大多数SVT的变体实际上都不是隐私。在本文中，我们分析了这些错误，并找出可能导致这些错误的误解。我们还提出了一个能提供更好效用的SVT的新版本，并介绍了一种有效的技术来提高SVT的性能。这些改进可以应用于提高互动环境下的效用。通过分析和实验比较，我们表明，在非交互式环境中（但不是交互式环境），SVT技术是不必要的，因为它可以被指数机制（EM）所取代，而且精度更高。

PrivTrie: Effective Frequent Term Discovery under Local Differential Privacy

ICDE18
cite：63
一个移动操作系统经常需要从用户那里收集频繁的新词汇，以便建立和维护一个全面的字典。然而，收集键盘使用数据会引起隐私问题。本地差异隐私（LDP）已被确立为收集用户敏感信息的强大隐私标准。目前，最著名的符合LDP的频繁术语发现解决方案将问题转化为在LDP下收集n-grams，然后通过将n-grams建模为一个图，并识别该图上的cliques，从收集的n-grams中重建术语。由于转换后的问题（即收集n-grams）与原来的问题（发现频繁出现的术语）有很大的不同，所以最终结果的效用很差。此外，这种方法由于在大图上进行悬崖计算，也是相当昂贵的。在本文中，我们正面解决了这个问题：我们的建议，PrivTrie，通过在LDP下迭代构建一个三角形，直接从用户那里收集频繁用语。虽然构建三角形的方法是一个明显的选择，但在LDP下获得一个准确的三角形是非常具有挑战性的。PrivTrie通过一种新颖的自适应方法实现了这一点，该方法通过以最低的必要准确度构建三角形的内部节点来保护隐私预算。使用真实数据集的实验证实，PrivTrie在常见的隐私水平上实现了高准确度，并一直优于之前的所有方法。

Survey on improving data utility in differentially private sequential data publishing

IEEE Transactions on Big Data 2017
cite：63
在大数据时代，数据的大量产生、广泛共享和深度开发，带来了前所未有的隐私威胁。为了解决隐私问题，人们提出了各种隐私范式来实现隐私和数据效用之间的良好权衡。特别是，差分隐私已被公认为隐私保护的事实标准之一，并且已经提出了许多保证差分隐私的方案。然而，大多数现有的工作声称有一个卓越的效用-隐私权衡，只提出了具体的方法，有不同的观点，完整的比较分析和评估研究还没有被充分调查。为此，在本文中，我们从一个广泛而全面的角度回顾和研究了现有的关于提供差异化隐私的方案，以提供一个关于隐私保证和效用改进的有效性和效率的全面调查。我们根据现有方案在提高数据效用方面的机制，将其分为分布优化、敏感性校准、转换、分解和关联利用。我们还对它们的各种概念和原理进行了一些分析和比较，重点是对数据效用的改进。最后，我们概述了一些挑战并提供了未来的研究方向。

EKTELO: A Framework for Defining Differentially-Private Computations

SIGMOD18
cite：57
差分隐私的采用越来越多，但设计隐私、高效和准确算法的复杂性仍然很高。我们提出了一个新的编程框架和系统，Ektelo，用于实现现有的和新的隐私算法。对于回答线性计数查询的任务，我们表明，几乎所有的现有算法都可以由运算符组成，每个运算符都符合少数运算符类别中的一个。虽然过去的编程框架有助于确保程序的隐私性，但我们的框架的新颖之处在于它对编写准确和高效（以及隐私）程序的重要支持。在描述了Ektelo系统的设计和架构后，我们表明Ektelo是有表现力的，它允许通过代码重用实现更安全的实现，并且它允许隐私新手和专家轻松设计算法。我们通过设计几个新的最先进的算法来证明Ektelo的使用。

LightDP: towards automating differential privacy proofs

POPL '17（Principles of Programming Languages）
cite：77
在学术和工业环境中，差异化隐私的日益普及和采用，导致了越来越复杂的算法的发展，在释放信息的同时保护隐私。伴随着这一现象，不正确的算法的开发和发布也自然上升，从而显示了形式化验证工具的必要性。然而，现有的用于差分隐私的形式化方法面临着一个困境：基于定制逻辑的方法可以验证复杂的算法，但伴随着陡峭的学习曲线和程序员的重大注释负担，而现有的编程平台对一些复杂的算法缺乏表达能力。

在本文中，我们提出了LightDP，一种简单的命令式语言，在表达能力和可用性之间取得了更好的平衡。LightDP的核心是一个新颖的关系类型系统，它将关系推理与隐私预算计算分开。通过依赖类型，该类型系统强大到足以验证复杂的算法，而构成定理在这里是不够的。此外，LightDP的推理引擎可以推导出大部分的证明细节，甚至在存在多个证明时，以最小的隐私成本搜索证明。我们表明，LightDP验证复杂的算法只需要很少的人工努力。

分割：Differentially private spatial decompositions

Differential Privacy Techniques for Cyber Physical Systems: A Survey

IEEE Communications Surveys & Tutorials 2020
cite:332
icde13
由于信息和通信技术（ICT）的发展，现代网络物理系统（CPSs）已被广泛用于我们的日常生活中。随着CPSs的提供，与这些系统相关的安全和隐私威胁也在增加。被动攻击被入侵者用来获取CPSs的私人信息。为了使CPSs数据更加安全，过去已经提出了某些隐私保护策略，如加密和K-匿名。然而，随着CPSs架构的发展，这些技术也需要进行一定的修改。同时，差分隐私作为一种有效的技术出现，以保护CPSs的数据隐私。在本文中，我们对CPSs的差分隐私技术进行了全面调查。特别是，我们调查了差分隐私在四个主要的CPSs应用中的应用和实现，即能源系统、交通系统、医疗保健和医疗系统，以及工业物联网（IIoT）。此外，我们提出了CPSs差异化隐私技术的开放问题、挑战和未来研究方向。这项调查可以作为现代差分隐私技术发展的基础，以解决CPSs的各种问题和数据隐私场景。

PrivBayes: Private Data Release via Bayesian Networks

Cited by 479
ACM Transactions on Database Systems 2017
保护隐私的数据发布是一个重要的问题，一直是广泛研究的焦点。这个问题最先进的解决方案是差分隐私，它在不对对手进行限制性假设的情况下提供了强大的隐私保护程度。然而，使用差分隐私的现有技术不能有效地处理高维数据的发布问题。特别是，当输入数据集包含大量的属性时，现有的方法需要注入与数据中的信号相比数量惊人的噪声，这使得公布的数据几乎毫无用处。

为了解决现有方法的不足，本文提出了PrivBayes，一种用于发布高维数据的差异化私有方法。给定一个数据集D，PrivBayes首先构建一个贝叶斯网络N，它(i)提供了D中属性之间的简洁模型，(ii)允许我们使用D的低维边际集合P来近似D中的数据分布。之后，PrivBayes向P中的每个边际注入噪声，以确保差分隐私，然后使用噪声边际和贝叶斯网络构建D中数据分布的近似值。最后，PrivBayes从近似分布中抽出图元，构建一个合成数据集，然后发布合成数据。直观地说，PrivBayes规避了维度的诅咒，因为它将噪声注入到P中的低维边际，而不是高维数据集D。我们在真实数据上对PrivBayes进行了实验评估，证明它在准确性方面明显优于现有解决方案。

Privacy-Preserving Crowd-Sourced Statistical Data Publishing with An Untrusted Server

IEEE Transactions on Mobile Computing 2019
Cited by 101
向公众持续发布众包数据的汇总统计数据使许多数据挖掘应用成为可能（例如，实时交通分析）。现有的系统通常依靠一个可信的服务器来聚合时空的众包数据，然后应用差异化的隐私机制，在发布前对聚合统计数据进行扰动，以提供强大的隐私保证。然而，一旦服务器被黑客攻击或不可信，用户的隐私就会暴露。在本文中，我们研究了在不被信任的服务器下，实时众包统计数据的发布问题，并提供强有力的隐私保护。我们提出了一个新颖的基于分布式代理的隐私保护框架，称为DADP，它在用户和不可信任的服务器之间引入了一个新的多代理层次。用户可以随机选择一个代理，并通过匿名连接技术将签到信息上传给它，而不是直接将签到信息上传给不可信任的服务器。每个代理对收到的众包数据进行汇总，并用拉普拉斯机制对汇总的统计数据进行本地扰动。来自所有代理的扰动统计数据被进一步组合在一起，形成整个扰动统计数据，用于发布。特别是，我们提出了一种分布式预算分配机制和一种基于代理的动态分组机制，以分布式方式实现全局w事件ε-差分隐私。我们证明了DADP可以在不信任的服务器下为实时众包统计数据的发布提供w-事件ε-差分隐私。在真实世界的数据集上进行的大量实验证明了DADP的有效性。

Application of Local Differential Privacy to Collection of Indoor Positioning Data

IEEE Access 2018
Cited by 68
大数据，正在各个领域爆炸性地产生，被认为是不同行业的新增长引擎。近年来，大数据的分析已经引起了人们的关注，因为它显示出产生高价值的潜力。此外，随着物联网时代的到来，每个物体都与系统中的所有其他物体相连，大数据的重要性可能会继续得到强调，因为有来自不同设备的数据。随着室内空间的重要性不断增加，大多数城市居民的80%以上的日常生活都是在室内进行的，包含用户室内定位信息的大数据是了解用户室内行为模式的重要资产，例如顾客在大型百货商店的购物行为模式。但是，也存在个人信息泄露的风险，因为通过跟踪和分析用户的室内位置，推断出用户的敏感信息是可行的。本地差分隐私（LDP）是最先进的方法，用于保护数据收集过程中的个人隐私。LDP通过在数据贡献者一方对她/他的原始数据进行扰动来确保数据贡献者的隐私得到保护；因此，数据收集者无法获取原始数据，但仍能获得人口统计信息。本文重点讨论了LDP在室内定位数据收集方面的应用。特别是，我们通过实验评估了利用LDP收集的室内定位大数据的利用率，以估计指定室内区域的密度。合成数据集和实际数据集的实验结果表明，LDP很适用于收集室内定位数据以推断人口统计数据。

Cryptϵ: Crypto-Assisted Differential Privacy on Untrusted Servers

Cited by 59
sigmod 20

icde13
差别化隐私（DP）是目前实现数据分析隐私的事实标准，它通常以 "中心 "或 "本地 "模式实现。本地模式在商业部署中更受欢迎，因为它不需要一个受信任的数据收集器。然而，与中央模式相比，这种隐私的增加是以效用和算法的可表达性为代价的。在这项工作中，我们提出了Cryptε，一个系统和编程框架，它（1）实现了中心模型的准确性保证和算法可表达性（2）没有像本地模型那样的任何可信数据收集器。Cryptε实现了 “两全其美”，它采用了两个非共存的不可信任的服务器，在数据所有者的加密数据上运行DP程序。理论上，使用现成的安全多方计算工具对DP程序进行直接的实现可以实现上述目标。然而，在实践中，它们被许多挑战所困扰，如性能差和棘手的安全证明。为此，Cryptε允许数据分析师编写逻辑DP程序，这些程序被自动翻译成安全协议，在加密数据上工作。这些协议确保不受信任的服务器只了解噪声输出，从而保证了所有Cryptε程序的DP（对于计算上受限的对手）。Cryptε支持丰富的DP程序，这些程序可以通过一组小的转换和测量操作符，以及任意的后处理来表达。此外，我们提出了利用输出是有噪声的这一事实进行性能优化。我们通过在真实世界的数据集上进行广泛的实证评估来证明Cryptε的实际可行性。

Answering range queries under local differential privacy

Cited by 60
VLDB19

icde13
计算在指定区间内有输入的人群的比例，即范围查询，是一个基本的数据分析原语。范围查询也可用于计算其他核心统计数据，如量值，并建立预测模型。然而，当数据来自于个人，并且与他们的财务、健康、宗教或政治地位有关时，常常会受到隐私方面的关注。在本文中，我们介绍并分析了在差分隐私的局部变体[23]下支持范围查询的方法，这是一个新兴的隐私保护数据分析的标准。

本地模型要求每个用户在隐私保证下发布其私人数据的噪声视图。虽然许多作品都解决了可信聚合器设置中的范围查询问题，但在不可信的聚合（本地DP）模型下，这个问题还没有被专门解决，即使最近已经开发了许多用于估计离散分布的基元。我们描述并分析了两类基于层次直方图和Haar小波变换的范围查询的方法。我们表明，这两种方法在理论上都能保证方差的准确性。在实践中，这两种方法都很快速，需要最少的计算和通信资源。我们的实验表明，小波方法在高隐私环境下是最准确的，而分层方法在较弱的隐私要求下占优势。