差分隐私中随机响应的抛硬币问题（LDP）

最新推荐文章于 2024-11-28 11:19:51 发布

粥粥粥少女的拧发条鸟

最新推荐文章于 2024-11-28 11:19:51 发布

阅读量2k

点赞数 5

分类专栏：差分隐私文章标签：算法概率论网络安全

本文链接：https://blog.csdn.net/qq_41691212/article/details/121221178

版权

差分隐私专栏收录该内容

38 篇文章

订阅专栏

[关于随机响应的抛硬币问题和LDP的思考] RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response 【论文笔记】

写在前面的话
摘要
RAPPOR和（纵向）攻击
结论
直接看这里吧！！！！

写在前面的话

这篇论文是下面这篇论文的引文
图合成与差分隐私
有一个地方没有弄明白
在这里插入图片描述
之前看的是投两次硬币，这里写的是一次性的概率，如果p小于0.5那不就为负数了，得到的值还比原来的小。单是这一点我就很困惑，再者这个概率p和1-p不都是对于总体而言吗？可以单独放在一个yes的数量上吗？所以就看了这篇论文。但是泛读了两遍发现没有与上面内容相关的方面，只是提到了抛硬币实验，也是两次。但是这篇文章里面提到了攻击，我比较感兴趣，所以和大家分享一下。

摘要

随机聚合隐私-保留有序响应，或RAPPOR，是一种从最终用户客户端软件众包统计的技术，具有强大的隐私保证。简而言之，rappor允许研究客户端数据的森林，而不允许查看单个树的可能性。通过以一种新的方式应用随机响应，RAPPOR提供了这些收集和对收集数据的高效、高效用的分析的机制。特别是，RAPPOR允许收集客户端字符串种群的统计数据，这对每个客户端都有很强的隐私保证，并且没有它们的报告的可链接性。本文对RAPPOR进行了描述和激励，详细介绍了其差异隐私和效用保证，讨论了其在面对不同攻击模型时的实际部署和特性，最后给出了其在合成数据和真实数据中的应用结果。

RAPPOR和（纵向）攻击

1）攻击者可以访问单个报告
2）攻击者可以访问一个用户的多个报告
3）攻击者能够完全访问客户端所有报告
保护一次性和多个集合的隐私需要考虑几种不同的攻击模型。假设基本攻击者可以访问单个报告，并且可以通过单个一轮随机响应来停止。窗口攻击者可以随时间访问来自同一用户的多个报告。如果不仔细修改传统的随机反应技术，几乎可以肯定的是，就会发生私人信息的全面披露。如果观察窗口很大，且底层值变化不大，情况尤其如此。能够完全访问所有客户端报告的攻击者（例如，具有无限访问权限的内部人士）是最难阻止的，但这种攻击在实践中也是最难执行的。RAPPOR为所有三种类型的攻击者提供了关于可调隐私保护的不同攻击模型之间的明确权衡。
RAPPOR建立在记忆的基本理念之上，通过玩两次随机反应游戏，提供了一个一次性和纵向隐私保护的框架，中间有一个记忆步骤。第一步，称为永久随机响应，被用来创建一个“嘈杂”的答案，由客户回忆，并永久重用以代替真实的答案。第二步，被称为瞬时随机响应，随着时间的推移，报告了“嘈杂”的答案，最终完全揭示了它。长期的、纵向的隐私是通过使用永久的随机响应来确保的，而使用一个实例中性随机反应提供了对可能的跟踪外部性的保护。
在随着时间的推移，从同一参与者那里收集到多个回复的情况下，底层记忆的想法对隐私保护至关重要。例如，在论文一开始就关于共产党的问题中，记忆可以允许我们提供ln(3)-DP，即使有无数的回答，只要潜在的记忆回答有如此程度的差异隐私。
另一方面，如果没有回忆或其他限制的反应，随机化并不足以在面对多个集合时保持合理的否认性。例如，如果在本文开头的随机响应方案中，100个回答中有75个对单个客户是“是”的，那么在1.39×10−24部分的病例中，真正的答案将是“不”。
只有在潜在的真实价值没有以不相关的方式变化的情况下，情绪化在提供纵向隐私方面是绝对有效的。当用户的连续报告在时间上是相关时，差异隐私保证偏离了他们的名义水平，并随着相关性的增加而变得逐渐变弱。极端的是，当要求用户在几天内每天报告他们的年龄时，需要采取额外的措施来防止随着时间的推移完全披露，如在一定数量的报告后停止收集或以指数级增加噪音水平，如第6节中进一步讨论。
对于报告严格在两个真实值(a、b、a、a、a、a、b、…)之间交替的属性的客户端，a和b的两个记忆永久随机响应将被一次又一次地重复，以生成RAPPOR报告数据。因此，获得足够多报告的攻击者，可以任意确定地学习那些记忆的“噪声”值——例如，通过分别分析偶数和奇数子序列。但是，即使在这种情况下，由于记忆，攻击者也不能确定a和b的值。也就是说，如果a和b是相关的，攻击者可能仍然比他们本来会学到的更多；面对任何此类相关性，保持隐私将在第3节和第6节中进一步讨论（参见[19]）
在下一节中，我们将详细描述RAPPOR算法。然后，针对该算法满足差异隐私的严格隐私保证，我们提供了直觉和形式的证明。然后，我们将投入几个部分来讨论RAPPOR的其他技术方面，这些方面对其在实践中的潜在用途至关重要，如参数选择，通过高级统计解码解释结果，以及说明在实践中可以学习到的实验。其余的部分讨论了我们的实验评估，我们所考虑的攻击模型，RAPPOR技术的局限性，以及相关的工作。

结论

我会想起了一个LDP图
在这里插入图片描述
感觉和我的问题很像，有回答正确答案的概率3/4，也就是p。回答相反答案的概率1/4，也就是1-p。将这些数值带入c/2p-1，即4/((6/4)-1)=8。原来的答案也就4个，这个差别比较大。但是这篇论文是TIFS上的，不可能犯这样低级的错误。肯定是我理解的问题。只看上面这个图好理解，真实的答案占了3/4，错误的答案占1/4。

直接看这里吧！！！！

我们不一定要抛两次硬币。比如我问一个问题，你是否在实验室里摸鱼？这是一个很敏感的问题，我们采取抛一次硬币解决，你如果抛到正面，就回答真实答案，如果抛到反面就回答假的答案。抛到正面的概率为p，反面为1-p。假设采访了N个人，有c个人回答了yes，那么就有N-c个人回答了no。
首先我们假设在真实情况中，摸鱼的人占比为x。
在这里插入图片描述
注意这里的统计比例并不一定准确，此时x我们不知道，并且计算的值是对每个人而言的概率。简单来说，用已知结果去推未知的参数x。这里你会不会想到似然这个概念，有了实验结果，需要推测参数具体值的可能性。这里需要用到似然函数。
在这里插入图片描述