【差分隐私入门】差分隐私系统学习记录 (一)

写在前面的话

纯属个人笔记,如有问题请看原文或者留下评论。

The Promise of Differential Privacy

大致讲了一下隐私数据保护的攻防历史,对理解差分隐私帮助还是有的,但不作为后续研究的重点,这里跳过。

Basic Terms

这一部分讲了差分隐私的正式定义,以及一些关键属性。

The model of computation

场景:数据库

模型:交互式与非交互式

目的:保护隐私同时对整个数据库进行统计分析

交互式:对查询结果加噪

非交互式:对数据加噪

非交互式的缺点:当所有的查询都提前知道时,非交互式模型应该提供最好的准确性,因为它能够将知道查询结构的噪声关联起来。相反,当事先不知道关于查询的信息时,非交互式模型就会提出严重的挑战,因为它必须为所有可能的查询提供答案。正如我们将看到的,为了确保隐私,甚至防止隐私灾难,准确性必然会随着问题的数量而恶化,而为所有可能的问题提供准确的答案将是不可行的。

输入:数据库、数据类型(所有可能数据库行的集合)、随机位以及一组查询

输出:字符串(需要解码)

【如果输出字符串可以解码,对查询产生相对准确的答案。如果没有提出查询,那么我们就处于非交互式的情况下,希望输出字符串可以被解释为提供对未来查询的答案。在某些情况下,我们可能要求输出字符串是一个合成数据库。这是从可能的数据库所有数据记录中提取的多集。在这种情况下,解码方法是对合成数据库执行查询,然后应用某种简单的转换,如乘以一个缩放因子,以获得对查询的真实答案的近似值。】

Towards defining private data analysis

隐私定义:什么都没学到
密码系统的语义安全:从密文中看不到明文(未加密的信息)
即使在“合理的”辅助知识的背景下,隐私保证也必须成立,但将合理的辅助知识与任意的辅助知识分离出来是有问题的。

Formalizing differential privacy

隐私来源于任何否认的结果:随机响应(抛两次硬币)概率化答案。

简单概率:离散空间中,每个x相互独立,概率累加和为1。
在这里插入图片描述
随机算法:一般来说,具有域a和(离散)范围B的随机算法将与从a到B上的概率单纯形的映射相关联。随机算法的思想在于,连续空间映射到离散空间。
在这里插入图片描述
数据库之间的l1距离:就是看差了多少,也可以理解为两个集合的对称差运算或者汉明距离。
在这里插入图片描述
差分隐私定义:其中概率空间在机制M的硬币翻转之上。如果δ=0,我们说M是满足ε-差分隐私的。δ允许少量数据暴露,即不符合差分隐私,从而保证总体记录的完整性。通常δ的值小于数据库大小中任何多项式的逆。(这里没看懂)反正δ不能直接取数据库大小的倒数,这样取取值对于数据少的情况很危险。
在这里插入图片描述
隐私损失:当给定一个输出看在两个数据上概率分布的差异即隐私损失。差分隐私确保对于所有相邻的x,y,隐私损失的绝对值将被ε限制,概率至少为1−δ。概率空间在机制M的硬币上。
在这里插入图片描述
后处理:就是说,不管在已经满足差分隐私的机制上如何变化,最终都是满足差分隐私的。
在这里插入图片描述
证明:
在这里插入图片描述
简单组合定理:根据上面的情况,当对一个数据集使用多个满足差分隐私的随机算法,最终的满足的差分隐私的隐私预算是所有随机算法隐私预算的和。
在这里插入图片描述
隐私保证的强度与组的大小线性下降
在这里插入图片描述

What differential privacy promises

考虑一个个体i,他对所有可能的未来事件集有任意的偏好,我们用A表示。这些偏好由实用函数ui:A→R≥0表示,我们说当a∈A通过时,我会经历实用ui(a)。假设x∈N|X|是一个包含个体是私有数据的数据集,而M是一个ε-微分私有算法。设y是一个与x相同的数据集,除了它不包括个体i的数据(特别是∥x−y∥1=1),设f:Range(M)→∆(A)是决定未来事件a分布的(任意)函数,基于机制M的输出。均值是随机变量(具有概率特性),期望是常数(不具有概率特性)!
在这里插入图片描述
因此,通过承诺保证ε差分隐私,数据分析师可以向个人承诺,他预期的未来效用不会受到超过eε≈(1+ε)因素的损害。请注意,这个承诺是独立于个体而持有的,它是效用函数ui,并且同时适用于可能具有完全不同的效用函数的多个个体。

What differential privacy does not promise

虽然差分隐私是一个非常有力的保证,但它并不承诺无条件地免受伤害。它也没有创造出以前不存在的隐私。更普遍的说,差分隐私并不能保证一个人认为是自己的秘密会被保密。它只是确保一个人参与调查本身不会被披露,也不会导致披露一个人参与调查的任何细节。但是从调查中得出的结论很可能反映了关于个人的统计信息。一项旨在发现特定疾病早期指标的健康调查可能会产生强有力的、甚至结论性的结论;对特定个人的这些结论并不是违反差分隐私的证据;个人甚至可能没有参与调查(同样,差分隐私确保了无论个人是否参与调查,这些结论性结果都将以非常相似的概率获得)。特别是,如果调查告诉我们,特定的私有属性与公共可观察到的属性有强烈的相关性,这并不是违反差分隐私,因为同样的相关性将以几乎相同的概率被观察到,而不依赖于任何受访者的存在或不存在。
在引入并正式定义了差分隐私后,我们概括了其关键。
1.防止任意风险,超越了防止重新识别的保护。
2.自动中和链接攻击,包括使用所有过去、现在和未来的数据集以及其他形式和辅助信息来源的所有尝试的攻击。
3.隐私损失的量化。差分隐私不是一个二元概念,它可以衡量隐私损失。这允许在不同的技术之间进行比较:对于隐私损失的固定界限,哪种技术能提供更好的准确性?对于固定的准确性,哪种技术能提供更好的隐私?
4.组成。也许最重要的是,损失的量化也允许分析和控制多个计算上的累积隐私损失。通过理解组合下的差异私有机制的行为,可以从更简单的差分私有构建块中设计和分析复杂的差分私有算法。
5.集团的隐私权。差分隐私允许分析和控制像家庭这样的群体所造成的隐私损失。
6.后处理下的关闭差异隐私不受后处理的影响:数据分析师,如果对私有数据库没有额外的了解,就无法计算差分私有算法M的输出函数,从而使其私有差异更小。也就是说,数据分析师不能增加隐私损失,无论是在正式定义下,甚至在任何直观意义上,仅仅是坐在一个角落里思考算法的输出,不管有什么辅助信息可用。
这些都是差分隐私的信号属性。我们能证明这是相反的吗?也就是说,这些属性或其中的某个子集是否意味着不同的隐私?不同的隐私在这些方面被削弱,仍然有意义吗?这些都是悬而未决的问题。

Final remarks on the definition

The Granularity of Privacy

从数据方面分析,确定承诺隐私的粒度水平。
差分隐私承诺,即使数据库中的单个条目被修改,算法的行为也将大致保持不变。但是什么构成了数据库中的单个条目呢?例如,考虑一个采用图形形式的数据库。这样的数据库可能会编码一个社交网络:每个个体的i∈[n]都用图中的一个顶点表示,而个体之间的友谊则用边表示。
我们可以在与个人相对应的粒度水平上考虑差分隐私:也就是说,我们可以要求差分隐私私有算法对从图中添加或删除任何顶点都不敏感。这给了一个强大的隐私保证,但实际上可能比我们需要的要强大。添加或删除单个顶点毕竟可以添加或删除图中的n条边。根据我们希望从图中了解到什么,对n个边去除不敏感可能是一个不可能满足的约束。
另一方面,我们可以考虑与边对应的粒度级别上的差分隐私,并要求我们的算法只对从图中添加或删除单个或少量的边不敏感。这当然是一个较弱的保证,但对于某些目的来说可能仍然足够了。非正式地说,如果我们承诺在单条边的水平上实现ε-差分隐私,那么数据分析人员不应该能够得出关于图中1/ε边的任何子集存在的任何结论。在某些情况下,大量的社会接触群体可能不被认为是敏感的信息:例如,一个人可能觉得没有必要隐藏这样一个事实,即他的大多数接触都是在他的城市或工作场所的个人,因为他居住的地方和工作地点都是公共信息。另一方面,可能有少数社会接触者的存在高度敏感(例如,潜在的新雇主或亲密的朋友)。在这种情况下,边缘隐私应该足以保护敏感信息,同时仍然允许比顶点隐私对数据进行更全面的分析。边缘隐私将保护该人的敏感信息,只要他的朋友少于1/ε。
作为另一个例子,一个不同的私人电影推荐系统可以设计来保护数据训练集的“事件”水平的单一电影,隐藏任何单一电影的观看/评级,比如,隐藏个人的热情牛仔西部片或血腥,或“用户”水平的个人的整个观看和评级历史。

All Small Epsilons Are Alike

当ε很小时,(ε,0)-差分隐私断言,对于所有相邻的数据库对x,y和所有输出o,对手无法区分哪个是真正的数据库在观察o的基础上。当ε很小时,不能是(ε,0)差分隐私的并不一定令人担忧,例如,该机制可能是(2ε,0)差异私有的。不同而小的环境的隐私保障的性质非常相似。但是ϵ的大价值呢?没有(15,0)-差异私有仅仅说存在相邻的数据库和一个输出o,其中根据数据库观察o的概率分别为x或y的比率很大。o的输出可能非常不太可能(这由(ε,δ)——差分隐私处理);数据库x和y可能非常复杂,很可能发生在“现实世界”中;对手可能没有正确的辅助信息来识别揭示的输出;或者对数据库(s)了解不够来确定它们的对称差异的价值。因此,就像弱加密系统可能只泄露从消息中最不重要的一点到完整的解密密钥一样,失败(ε,0)或(ε,δ)差分隐私可能从有效毫无意义的隐私泄露到整个数据库的完整泄露。一个大的容器按照它自己的方式很大。

A Few Additional Formalisms

我们的隐私机制M通常会取一些辅助参数w作为输入。例如,w可以在数据库x上指定一个查询qw,或指定一个查询的集合Qw。机制M(w、x)可能(分别)对qw(x)或Qw中的部分或全部查询进行差分隐私近似响应。对于所有的δ≥0,我们假设一个机制M(·,·)满足(ε、δ)-差分隐私,如果每个机制w、M(w,·)满足(ε、δ)-差分隐私。
w中可能包含的参数的另一个示例是一个安全参数κ,以控制δ=δ(κ)应该有多小。也就是说,M(κ,·)对于所有κ应该是(ε,δ(κ))差分隐私的。通常,在整个本专著中,我们要求δ在κ中是一个可以忽略不计的函数,即δ=κ-ω(1)。因此,我们认为δ是加密小的,而ε通常被认为是一个中等小的常数。
在辅助参数w指定查询的集合Qw={q:Xn→R}的情况下,我们调用机制Ma synopsis generator。synopsis generator输出一个(差分隐私)synopsisa,它可以用来计算Qw中所有查询的答案。也就是说,我们需要存在一个重建过程R,对于每个输入v指定查询qv∈Qw,重建过程输出R(A,v)∈r。通常,我们将要求高概率M产生一个概要的重建过程,使用a,计算准确的答案。也就是说,对于查询qv∈Qw的全部或大部分(由某种分布加权),错误|R(A,v)−qv(x)|将会有界。我们偶尔会滥用符号,并将实际查询q(而不是它的一些表示v)作为输入,并输出R(A,q)。
一个概要的一个特殊情况是一个合成数据库。顾名思义,合成数据库的行与原始数据库的行的类型相同。合成数据库的一个优点是,它们可以使用分析人员在原始数据库上使用的相同软件进行分析,从而避免了对特殊重建程序R的需要。

备注

由于浮点数实现中的微妙之处,在规划重值机制,如拉普拉斯机制时,必须相当小心。否则,差异隐私可能会被破坏,因为数据库x上概率非零的输出,由于舍入,相邻数据库y上的概率为零。这只是浮点的实现需要在不同隐私的背景下进行审查的一种方式,而且它并不是唯一的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

粥粥粥少女的拧发条鸟

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值