文章目录
论文信息
- 标题:Privacy-preserving cooperative online matching over spatial crowdsourcing platforms
- 评级:CCF A
- 链接:https://dl.acm.org/doi/abs/10.14778/3561261.3561266
- 在线阅读:https://readpaper.com/pdf-annotate/note?pdfId=2107452327557160960¬eId=2107452484423994368
- 单位:北京理工大学
论文泛读
摘要、问题、技术
首先,要回答作者试图解决什么问题?
目前,已有工作研究如何利用平台之间抽调工人与任务,采取合作的形式以达到各平台收入最大化的目标;这与传统的单平台匹配问题有所不同,跨平台可以缓解供需关系不平衡问题。但是,考虑到任务和工人都是在线冒出的,每个平台在决定当前时刻是否合作时也要慎重考虑,避免自身工人的过度流失。
然而,现有工作没有考虑隐私保护问题。
如果本平台任务多、工人少。
-
在决定要合作后,需要将本平台的任务信息(包括位置)公开,供其他平台选择是否有适合的工人完成任务。这个位置信息是相对敏感的。如果其他平台最终无法合作,本平台依然傻傻地白白地把当前平台的任务的敏感位置暴露出去了。
-
如果有多个平台选择合作,它们可以报价供我选择;倘若一个任务完成后收益为 v r = 10 v_r=10 vr=10,而合作平台报价为 v r ′ = 8 v_r^\prime = 8 vr′=8,那么本平台可以获得 2 2 2,合作平台可以分得 8 8 8。这里的报价,一般基于合作平台的历史信息,因此如果报价不加以扰动,这部分敏感数据容易被轻易获取。
其次,要回答论文中提到的解决方法之关键是什么?
因此,本文提出了PCOM框架,满足 ( ( ϵ 1 + ϵ 2 ) ∗ max p ∈ P ∣ p W ∣ ) ((\epsilon_1 + \epsilon_2) * \max\limits_{p\in P} |p_W| ) ((ϵ1+ϵ2)∗p∈Pmax∣pW∣)差分隐私属性。本文将差分隐私理论、机制应用于时空众包场景中,并提出了两种匹配、定价算法。
图片、主要框架
说穿了,就是:
- 步骤一,发送无法执行的任务地理坐标时,进行一个扰动,加上一个噪声;
- 步骤二,合作方报价时,进行一个扰动,加上一个噪声。
算法伪代码
算法一 | 算法三 |
---|---|
算法一和算法三都是描述PCOM框架的执行流程。分为两阶段,本地匹配和合作(发送地址、拍卖报价、匹配核对)。差分隐私应用在:地理位置的扰动和拍卖价格的扰动。
算法二 | 算法四 |
---|---|
算法二和算法四则是具体说明如何报价,均采用指数机制,但是指数机制效用函数(及其敏感度)不同。算法二是简单基于所有历史成交价;算法四则缩小范围,考虑符合匹配条件的工人看到当前报价执行的意愿(可能性)。
理解精读
前置基础:差分隐私及常用机制
差分隐私是算法(框架、函数、系统)的属性。给定一个算法 F F F满足 ϵ \epsilon ϵ差分隐私,任意邻域数据集 x , x ′ , d i s ( x , x ′ ) = 1 x, x^\prime, dis(x, x^\prime)=1 x,x′,dis(x,x′)=1,任意可能的输出(集合) S S S。
当且仅当:
e − ϵ ≤ Pr [ F ( x ) ∈ S ] Pr [ F ( x ′ ) ∈ S ] ≤ e ϵ e^{-\epsilon} \le \frac{\text{Pr} [F(x) \in S]}{\text{Pr} [F(x^\prime) \in S]} \le e^\epsilon e−ϵ≤Pr[F(x′)∈S]Pr[F(x)∈S]≤eϵ
e
−
ϵ
≤
Pr
[
F
(
x
)
=
S
]
Pr
[
F
(
x
′
)
=
S
]
≤
e
ϵ
e^{-\epsilon} \le \frac{\text{Pr} [F(x) = S]}{\text{Pr} [F(x^\prime) = S]} \le e^\epsilon
e−ϵ≤Pr[F(x′)=S]Pr[F(x)=S]≤eϵ
解释:
- 如果 F ( x ) F(x) F(x)输出为连续值,应该写作 Pr [ F ( x ) ∈ S ] \text{Pr} [F(x)\in S] Pr[F(x)∈S],因为如果写作 Pr [ F ( x ) = S ] \text{Pr} [F(x)=S] Pr[F(x)=S]天然等于“零”。
- 可以将 d i s ( ⋅ , ⋅ ) dis(\cdot,\cdot) dis(⋅,⋅)简单定义为修改的行数,即数据集 x x x删除、修改、添加一行记录后,记为 x ′ x^\prime x′。这个公式表示,在数据集上任意删除、修改、添加一行记录前后,算法在输出上的变化表现并不明显,几乎不变;大白话说,这在数学上就保证了每条记录(每个人)都是“匿名”的。
- ϵ \epsilon ϵ控制了隐私保护的程度,如果等于零,那么意味着有没有这个人(添加、删除、修改),算法的输出没有任何改变。
既然抽象定义好了满足 ϵ − \epsilon- ϵ−差分隐私。什么样的具体的算法(函数、机制)是符合这个性质的呢?经典的有高斯机制(一般用于近似差分隐私)、拉普拉斯机制(用于连续值)【 F ( x ) = f ( x ) + Lap ( Δ f ϵ ) F(x) = f(x) + \text{Lap}(\frac{\Delta f}{\epsilon}) F(x)=f(x)+Lap(ϵΔf)】、指数机制(用于离散值)【 Pr(r) ∝ e ϵ u ( x , r ) 2 Δ u \text{Pr(r)} \propto e^{\frac{\epsilon u(x, r)}{2 \Delta u}} Pr(r)∝e2Δuϵu(x,r)】。
符号说明:
- x x x是输入数据集(例如员工的个人信息数据,完成订单的历史数据);
- ϵ \epsilon ϵ是超参数,代表差分隐私的控制系数,越小越接近 0 0 0,隐私保护程度越高;
- Δ \Delta Δ代表函数的敏感度,即对于任意的 x , x ′ , d i s ( x , x ′ ) = 1 x, x^\prime, dis(x, x^\prime)=1 x,x′,dis(x,x′)=1, ∣ f ( x ) − f ( x ′ ) ∣ |f(x) - f(x^\prime)| ∣f(x)−f(x′)∣的最大值。
- 连续默认输出是 f ( x ) f(x) f(x), F ( x ) F(x) F(x)在上面添加噪声,进行扰动,保护隐私;
- 对于离散的取值而言,记可以选择作为输出的个体 r r r属于 R \mathcal{R} R,默认输出是选择 u ( x , r ) u(x, r) u(x,r)最大的,即 r ⋆ = arg max r ∈ R u ( x , r ) r^\star=\arg\max\limits_{r\in \mathcal{R}} u(x, r) r⋆=argr∈Rmaxu(x,r),即 Pr ( r ⋆ ) = 1 \text{Pr}(r^\star) = 1 Pr(r⋆)=1 ;指数机制则是按照适应度轮盘赌的形式,以概率选择个体。
论文推导公式详解
位置信息差分隐私
基于上述理论,论文将
e − ϵ ≤ Pr [ F ( x ) ∈ S ] Pr [ F ( x ′ ) ∈ S ] ≤ e ϵ e^{-\epsilon} \le \frac{\text{Pr} [F(x) \in S]}{\text{Pr} [F(x^\prime) \in S]} \le e^\epsilon e−ϵ≤Pr[F(x′)∈S]Pr[F(x)∈S]≤eϵ
中的 F ( x ) F(x) F(x),具像化为 d ( K ( x , y ) ) d(K(x, y)) d(K(x,y))(差分隐私算法具有后处理性),则可以得到:
然后,求得累积分布函数,则可以将 = r =r =r,替换为 ≤ r a d \le rad ≤rad
历史报价差分隐私
同样的,只不过报价是离散值,因此不采用积分,而采用前缀和:
论文算法公式详解
对于指数分布而言,主要是要定义“选项个体”的效用函数 u u u,推导 Δ u \Delta u Δu。
算法二:效用函数、敏感度
历史报价中,按照出现次数的多少,赋以选择该价格的概率。
u ( x , v i ) = l n ( num i ) u(x, v_i)=ln(\text{num}_i) u(x,vi)=ln(numi)
由于历史信息是一条一条的,那么如果任意修改、删除、插入一行, u u u最多变化为 l n 2 ln 2 ln2。这是因为 num i \text{num}_i numi代表以 v i v_i vi为报价,有 num i \text{num}_i numi条历史记录。如果删去一行,则对于当前报价 v i v_i vi来说, num i \text{num}_i numi最多变化 1 1 1。
因此,根据指数机制公式 Pr(r) ∝ e ϵ u ( x , r ) 2 Δ u \text{Pr(r)} \propto e^{\frac{\epsilon u(x, r)}{2 \Delta u}} Pr(r)∝e2Δuϵu(x,r),不难看懂算法三公式:
算法四:效用函数、敏感度
算法四替换了效用函数 u u u,考虑可执行工人的历史记录,以及接单概率:
既然效用函数是这样,最后就是要问,敏感度为什么是这样。
我们可以证明 ≤ \le ≤,如下: