【论文汇报】满足差分隐私性质的跨平台在线匹配_privacy-preserving cooperative online matching ove-CSDN博客

本文链接：https://blog.csdn.net/raymond_duu/article/details/135479312

本文提出了一种Privacy-preservingCooperativeOnlineMatching(PCOM)框架，针对在线协作的时空众包平台，解决隐私泄露问题。通过在地理位置和报价中应用差分隐私，确保位置信息和历史报价的保护。论文详细介绍了两种匹配和定价算法，分别考虑了效用函数和敏感度的调整。

摘要由CSDN通过智能技术生成

论文信息

标题：Privacy-preserving cooperative online matching over spatial crowdsourcing platforms
评级：CCF A
链接：https://dl.acm.org/doi/abs/10.14778/3561261.3561266
在线阅读：https://readpaper.com/pdf-annotate/note?pdfId=2107452327557160960&noteId=2107452484423994368
单位：北京理工大学

论文泛读

摘要、问题、技术

首先，要回答作者试图解决什么问题？

目前，已有工作研究如何利用平台之间抽调工人与任务，采取合作的形式以达到各平台收入最大化的目标；这与传统的单平台匹配问题有所不同，跨平台可以缓解供需关系不平衡问题。但是，考虑到任务和工人都是在线冒出的，每个平台在决定当前时刻是否合作时也要慎重考虑，避免自身工人的过度流失。

然而，现有工作没有考虑隐私保护问题。

如果本平台任务多、工人少。

在决定要合作后，需要将本平台的任务信息（包括位置）公开，供其他平台选择是否有适合的工人完成任务。这个位置信息是相对敏感的。如果其他平台最终无法合作，本平台依然傻傻地白白地把当前平台的任务的敏感位置暴露出去了。
如果有多个平台选择合作，它们可以报价供我选择；倘若一个任务完成后收益为 $v_r=10$ ，而合作平台报价为 $v_r^\prime = 8$ ，那么本平台可以获得 $2$ ，合作平台可以分得 $8$ 。这里的报价，一般基于合作平台的历史信息，因此如果报价不加以扰动，这部分敏感数据容易被轻易获取。

其次，要回答论文中提到的解决方法之关键是什么？

因此，本文提出了PCOM框架，满足 $((\epsilon_1 + \epsilon_2) * \max\limits_{p\in P} |p_W| )$ 差分隐私属性。本文将差分隐私理论、机制应用于时空众包场景中，并提出了两种匹配、定价算法。

图片、主要框架

PCOM

说穿了，就是：

步骤一，发送无法执行的任务地理坐标时，进行一个扰动，加上一个噪声；
步骤二，合作方报价时，进行一个扰动，加上一个噪声。

算法伪代码

算法一	算法三

算法一和算法三都是描述PCOM框架的执行流程。分为两阶段，本地匹配和合作（发送地址、拍卖报价、匹配核对）。差分隐私应用在：地理位置的扰动和拍卖价格的扰动。

算法二	算法四

算法二和算法四则是具体说明如何报价，均采用指数机制，但是指数机制效用函数（及其敏感度）不同。算法二是简单基于所有历史成交价；算法四则缩小范围，考虑符合匹配条件的工人看到当前报价执行的意愿（可能性）。

理解精读

前置基础：差分隐私及常用机制

差分隐私是算法（框架、函数、系统）的属性。给定一个算法 $F$ 满足 $\epsilon$ 差分隐私，任意邻域数据集 $x^\prime, dis(x, x^\prime)=1$ ，任意可能的输出（集合） $S$ 。

当且仅当：

$e^{-\epsilon} \le \frac{\text{Pr} [F(x) \in S]}{\text{Pr} [F(x^\prime) \in S]} \le e^\epsilon$

$e^{-\epsilon} \le \frac{\text{Pr} [F(x) = S]}{\text{Pr} [F(x^\prime) = S]} \le e^\epsilon$
解释：

如果 $F (x)$ 输出为连续值，应该写作 $\text{Pr} [F(x)\in S]$ ，因为如果写作 $\text{Pr} [F(x)=S]$ 天然等于“零”。
可以将 $dis(\cdot,\cdot)$ 简单定义为修改的行数，即数据集 $x$ 删除、修改、添加一行记录后，记为 $x^\prime$ 。这个公式表示，在数据集上任意删除、修改、添加一行记录前后，算法在输出上的变化表现并不明显，几乎不变；大白话说，这在数学上就保证了每条记录（每个人）都是“匿名”的。
$\epsilon$ 控制了隐私保护的程度，如果等于零，那么意味着有没有这个人（添加、删除、修改），算法的输出没有任何改变。

既然抽象定义好了满足 $\epsilon-$ 差分隐私。什么样的具体的算法（函数、机制）是符合这个性质的呢？经典的有高斯机制（一般用于近似差分隐私）、拉普拉斯机制（用于连续值）【 $\text{Lap}(\frac{\Delta f}{\epsilon})$ 】、指数机制（用于离散值）【 $\text{Pr(r)} \propto e^{\frac{\epsilon u(x, r)}{2 \Delta u}}$ 】。

符号说明：

$x$ 是输入数据集（例如员工的个人信息数据，完成订单的历史数据）；
$\epsilon$ 是超参数，代表差分隐私的控制系数，越小越接近 $0$ ，隐私保护程度越高；
$\Delta$ 代表函数的敏感度，即对于任意的 $x^\prime, dis(x, x^\prime)=1$ , $f(x^\prime)|$ 的最大值。
连续默认输出是 $f (x)$ ， $F (x)$ 在上面添加噪声，进行扰动，保护隐私；
对于离散的取值而言，记可以选择作为输出的个体 $r$ 属于 $\mathcal{R}$ ，默认输出是选择 $u (x, r)$ 最大的，即 $r^\star=\arg\max\limits_{r\in \mathcal{R}} u(x, r)$ ，即 $\text{Pr}(r^\star) = 1$ ；指数机制则是按照适应度轮盘赌的形式，以概率选择个体。

论文推导公式详解

位置信息差分隐私

基于上述理论，论文将

$e^{-\epsilon} \le \frac{\text{Pr} [F(x) \in S]}{\text{Pr} [F(x^\prime) \in S]} \le e^\epsilon$

中的 $F (x)$ ，具像化为 $d (K (x, y))$ （差分隐私算法具有后处理性），则可以得到：

在这里插入图片描述

然后，求得累积分布函数，则可以将 $= r$ ，替换为 $\le rad$

在这里插入图片描述

历史报价差分隐私

同样的，只不过报价是离散值，因此不采用积分，而采用前缀和：

在这里插入图片描述

论文算法公式详解

对于指数分布而言，主要是要定义“选项个体”的效用函数 $u$ ，推导 $\Delta u$ 。

算法二：效用函数、敏感度

历史报价中，按照出现次数的多少，赋以选择该价格的概率。

$v_i)=ln(\text{num}_i)$

由于历史信息是一条一条的，那么如果任意修改、删除、插入一行， $u$ 最多变化为 $l n 2$ 。这是因为 $\text{num}_i$ 代表以 $v_i$ 为报价，有 $\text{num}_i$ 条历史记录。如果删去一行，则对于当前报价 $v_i$ 来说， $\text{num}_i$ 最多变化 $1$ 。