差分隐私学习

差分隐私

  1. 是对统计数据库泄漏问题提出的新的隐私定义。在此定义下,对数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或者不在数据集中对计算结果影响微乎其微。所以,一 个记录因其加入到数据集中所产生的隐私泄露风险 被控制在极小的、可接受的范围内,攻击者无法通过 观察计算结果而获取准确的个体信息。
  2. 当数据集D中包含个体Alice时,设对D进 行任意查询操作f(例如计数、求和、平均值、中位数 或其它范围查询等)所得到的结果为f(D),如果将 Alice的信息从D中删除后进行查询得到的结果仍然为f(D),则可以认为,Alice的信息并没有因为被包含在数据集D中而产生额外的风险。差分隐私保护就是要保证任一个个体在数据集中或者不在数据集中,对最终发布的查询结果几乎没有影响。
  3. 设有两个几乎完全相同的数据集(两者的区别 仅在于一个记录不同),分别对这两个数据集进行查询访问,同一查询在两个数据集上产生同一结果的概率的比值接近1
    example:
    在这里插入图片描述
    一个医疗数据集D,其中的每 个记录表示某个人是否患有癌症(1表示是,0表示否).数据集为用户提供统计查询服务(例如计数查询),但不能泄露具体记录的值.设用户输入参数i,调用查询函数 f(i)=count(i) 来得到数据集前i行 中满足“诊断结果”=l的记录数量,并将函数值反 馈给用户.假设攻击者欲推测Alice是否患有癌症, 并且知道Alice在数据集的第5行,那么可以用 count(5) - count(4)来推出正确的结果.
    但是,如果,是一个提供e一差分隐私保护的查 询函数,例如 f(i)=count(i) + noise,其中noise是服从某种随机分布的噪声.假设.f(5) 可能的输出来 自集合{2, 2.5, 3},那么,f(4) 也将以几乎完全相同 的概率输出{2, 2.5, 3}中的任一可能的值,因此攻击 者无法通过f(5) - f(4)来得到想要的结果.
  4. 隐私保护预算
    它事实上体现了M所能够提供的隐私保护水平.在实际应用中,£通常取很小的值,£越小,表示隐私保护水平越 高.当£等于0时,保护水平达到最高,此时对于任意邻近数据集,算法都将输出两个概率分布完全相同的结果,这些结果也不能反映任何关于数据集的 有用的信息.因此,£的取值要结合具体需求来达到输出结果的安全性与可用性的平衡.
  5. 敏感度
    差分隐私保护可以通过在查询函数的返回值中 加入适量的干扰噪声来实现.加入噪声过多会影响 结果的可用性,过少则无法提供足够的安全保障.敏 感度是决定加入噪声量大小的关键参数,它指删除 数据集中任一记录对查询结果造成的最大改变. 在差分隐私保护方法中定义了两种敏感度,即全局敏感度 和 局部敏感度
    在这里插入图片描述
    全局敏感度大 需要添加的噪声大
    例如求中位数 f(D) = median(x1,x2,…,xn) xi 是区间[a,b]内的实数。
    设n为奇数,且数据已被排序,那么函数的返回值即为第m = (n-1)/2个数极端情况下前m = (n-1)/2是a,后明面都是b,删掉一个变了b-a,敏感度是b-a,可能会很大的一个值
    当全局敏感度较大时,必须在函数输出中添加 足够大的噪声才能保证隐私安全,导致数据可用性 较差。
    所以提出局部敏感度, f 是D上 的局部敏感度,在这里插入图片描述
    局部敏感度由函数f及给定数据集D中的具体 数据共同决定.由于利用了数据集的数据分布特征, 局部敏感度通常要比全局敏感度小得多.以前文的求 中位数函数为例,其局部敏感度为max(xm - xm-1, xm+1- xm).另外,局部敏感度与全局敏感度之间的 关系可以表示为 在这里插入图片描述
    由于局部敏感度在一定程度上体现了数 据集的数据分布特征,如果直接应用局部敏感度来 计算噪声量则会泄露数据集中的敏感信息.因此,局部敏感度的平滑上界被用 来与局部敏感度一起确定噪声量的大小.
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值