Boosting在差分隐私上的应用

下一张多米诺

已于 2024-02-29 15:07:23 修改

阅读量1k

点赞数 19

分类专栏：差分隐私文章标签： boosting 集成学习机器学习网络安全大数据密码学可信计算技术

于 2024-02-29 15:03:47 首次发布

本文链接：https://blog.csdn.net/LuciferXD/article/details/136350597

版权

差分隐私专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Boosting for Queries

本文将简单介绍Dwork和Roth所写的The Algorithmic Foundations of Differential Privacy第六章内容，需要有一定差分隐私（DP）了解。为了避免引起歧义，说明一下题目中的Boosting是借用了机器学习的算法思路，应对的是差分隐私多查询回答问题，而不是说boosting直接应用在了差分隐私的机器学习上。
如果想完全理解，请详细阅读相关内容，这里仅作简单介绍。

符号

数据库 $x\in \mathcal{X}^n$ （可以简单理解为n维向量，每个元素来自 $\mathcal{X}$ ），查询 $Q=\{q_1,...,q_{|Q|}\}$ ，其中 $q:x->\mathbb{R}$ ，所有 $Q$ 中的查询的全局敏感度上界为 $\rho$ 。

问题

很多场景下，我们不只是回答一次询问，面对多次查询情况，我们也要能做到尽量不泄露隐私的回答。显然，查询越多，我们的隐私损失越多，换句话说，保证相同隐私下，误差越大。根据组合定理，我们可以快速得到误差大概为 $O(\rho\sqrt{|Q|})$ （pure-DP为 $O(\rho|Q|)$ ），当 $∣ Q ∣$ 很大的时候（比如 $n^2$ ），这个误差没什么意义，那么我们可以得到大量查询下仍旧有意义的误差吗？

这是可以的，使用boosting技术可以实现一个差分隐私算法，对于每个回答误差大致为 $O(\rho\sqrt{n}\log^{3/2}|Q|)$ ！并且针对线性查询，该算法运行时间可以变为多项式时间。

算法概述

简单叙述一下这个算法，它有T轮迭代，在每一轮当中，

我们根据分布 $\mathcal{D}_t$ 选出来k个query，然后送到bsg(base synopsis generator)里面，bsg返回对于所有query的回答。
我们对于bsg给出的回答做个评判，然后分别打个分，越准确的回答，对应系数 $a_{t,q}$ 约大。
归一化打分，把它作为一个分布更新。

T轮之后，我们得到了 $T ∣ Q ∣$ 个结果，对于每个query选一个好的回答，返回。

在这里插入图片描述
整个算法流程大致就是这样，然后有几个比较有趣的点。

bsg是什么？bsg有四个参数（ $k$ , $\lambda$ , $\eta$ , $\beta$ ），分别构建所需要的查询数量，回答误差，平衡参数，失败概率。代表简单地说，他是一个黑盒，你给他k个query，它就能给你一系列回答，对于这k个query有着比较好的近似。然后有一个事实，如果k个query是从一个分布里选的，那对k个query的良好近似，可以得到对于 $∣ Q ∣$ 个query里面重要的（分值高的，或者是分布概率大的）有着良好近似。
和boosting区别在哪？可以看到我们对于回答的质量，并不仅仅用 $\lambda$ 来衡量，而是 $\lambda$ 和 $\lambda+\mu$ 两个阈值来衡量。在中间区域，我们根据回答的误差来更新。以上操作均是因为需要保证DP。
如果你仔细观察 $u_{t,q}$ 你就会发现，生成的 $\mathcal{D}$ 和指数机制有着密切联系。