[文献翻译自用]用于隐私感知推荐的基于深度强化学习的用户画像扰动

Deep-Reinforcement-Learning-Based User Profile Perturbation for Privacy-Aware Recommendation(Internet of things journal 2021)

用于隐私感知推荐的基于深度强化学习的用户画像扰动

摘要

用户画像扰动在用户接收推荐服务发送用户文件时保护隐私,其中隐私预算作为隐私参数可以被控制,以实现推荐质量和隐私保护之间的权衡,防止推断攻击。在本文中,我们为推荐系统提出了一种基于深度强化学习的用户画像扰动方案。该方案运用差别隐私保护用户隐私,并利用深度强化学习选择隐私预算来抵御推理攻击者。基于评估的神经网络 (NN)和一个目标NN,该方案使得用户设备能够基于被点击项目的敏感度水平、推荐项目之间的相似性以及估计的隐私损失来随时间优化隐私预算。我们给出了该方案在推荐中隐私保护性能的上限,并评估了其计算复杂度。针对电影推荐系统的实验结果表明,与基准方案相比,该方案在给定推荐质量的情况下提高了用户隐私保护水平。
索引术语—推理攻击、隐私、推荐系统、强化学习

1.Introduction

网飞和亚马逊等公司使用的推荐系统系统利用公开的用户资料信息(如用户点击、浏览或评级记录)提供推荐服务,同时努力保护用户隐私免受推断攻击[1]–[4]。此类系统的攻击者应用推理算法,如[1]中的马尔科夫链算法评估发布的用户资料,并推断用户的喜好、性别和政治关系。攻击者出售此类私人信息或发送垃圾邮件和广告以获取非法利润[5]。
[5]–[10]中所述的用户画像扰动方案保护用户隐私免受推荐系统或用户设备的推理攻击。特别是,1989 年提出了一种叫做D2P的微扰机制[5]评估用户点击的项目和服务器数据库中的那些项目之间的相似性,并应用固定的隐私预算来相应地干扰用户资料。差分隐私为用户提供了可靠且可证明的隐私保障,且不会降低推荐质量[11], 与诸如[12]的同态加密算法相比,减少了计算消耗。然而,选择隐私预算来实现推荐质量和隐私保护之间的权衡是有挑战性的,因为用户设备很少知道诸如攻击模型之类的底层信息。这个问题已经通过一个名为RUPP的基于强化学习(RL)的用户画像扰动方案解决了[10],其中使用深度Q-网络(DQN)来选择预算。然而,该方案往往高估了预期的长期贴现效用,降低了隐私保护性能,并增加了用户设备的计算开销。
在本文中,我们提出了一种基于深度RL的用户画像扰动方案DUPP,以保护推荐系统的用户隐私。该方案使用一个经过评估的神经网络(NN)来评估每个可行的隐私预算的预期长期折扣效用,在由项目敏感性水平、推荐项目之间的相似性和隐私损失估计组成的状态下。与[13]类似,设计了一个目标神经网络来计算具有最大估计期望长期贴现效用的隐私预算的目标期望长期贴现效用。不像DQN[10],这种结构用一个由三个完全连接的(FC)层组成的神经网络代替了卷积神经网络,以降低计算复杂性,并减轻在预期的长期贴现效用方面对隐私预算选择的高估。与[14]和[15]中基于学习的实时服务质量保证资源管理方案相比,我们提出的方案可以保护用户隐私免于推断攻击。
我们设计了一个隐私感知的推荐模拟,其中推理攻击者选择攻击可能性来评估发布的用户资料,目的是获取用户的隐私信息,用户设备决定隐私预算,目的是提高隐私保护水平和推荐质量。我们调查了这个隐私保护的推荐算法的Nash均衡,以计算我们提出的方法DUPP的性能上限,包括隐私保护水平、推荐质量和用户设备的可用性。我们讨论了被点击项目的敏感程度和推荐项目之间的相似性如何影响推荐系统DUPP的上限和计算复杂度。
我们在一个电影推荐系统中实现了DUPP来保护用户隐私,该系统在每个时间段从公共电影数据库MovieLens中推荐15部电影[16]。仿真结果表明,与D2P[5]和RUPP[10]相比,在推断攻击在使用[1]中算法进行攻击是,本方案降低了用户优先级损失,保证了推荐质量。
本文的贡献可以概括如下。

  1. 我们提出了一种基于深度强化学习的用户画像扰动方案,在不依赖于已知攻击模型的情况下保护推荐系统的用户隐私。
  2. 我们在攻击者和用户设备之间建立了一个隐私感知的推荐博弈,并给出了博弈的Nash均衡,从而限制了所提出的用户画像扰动方案的性能。同时也给出了该方案的计算复杂度。

本文的其余部分组织如下。我们第二节中回顾了相关研究,并在第三节中介绍了隐私感知推荐系统模型。在第四节中提出了用户配置文件扰动方案,并在第五节中分析了其性能。第六节给出了仿真结果,第七节给出了结论。

2.Related Work

在[17]中提出的隐私感知推荐系统中, 推荐服务器加密用户评分以保护用户隐私。[7]中的推荐服务器在训练推荐算法之前干扰评级记录以保护用户隐私。[5]中的用户配置文件扰动算法, 其评估项目相似性以选择被过滤的项目,并以较少的计算开销保护用户隐私。
用户资料发布必须保护用户隐私。在[12]里,用户设备在将敏感数据发布到推荐服务器之前应用同态加密来保护它们。在[18],地理社交网络中的用户设备使用零知识证明对用户签到数据进行加密,以保护用户位置隐私并确保基于位置的推荐算法的服务质量。[19]中的用户设备只发布二阶信息以降低隐私风险。[20]中提出的用户配置文件扰动方案应用凸优化来选择隐私噪声水平,从而减少给定推荐质量的信息泄漏。在[8]中,拉普拉斯机制用于干扰用户配置文件,以保护基于分类的用户隐私。[21]中的推荐系统拆分用户配置文件,并将代理帐户中不同用户的配置文件合并,以增加用户配置文件的熵。
RL最近被用于减轻无线网络中的隐私泄露。例如,[14]中提出的基于演员-评论家的频谱分配和功率控制方案使边缘设备能够减少平均分组延迟并增加成功传输的概率。在[15], 其应用深度学习后基于状态的算法来选择网络、子信道和发射功率,在动态工业网络中对于给定的所需通信可靠性和数据速率提高了数据速率并节省了能量。Minimax-Q学习用于[22]选择发布的传感数据的粒度,保护用户位置上下文隐私。[23]中的视频推荐系统使用一个分配的上下文土匪选择推荐的视频,从而保护供应商的收入隐私。在[1], 用户应用minimax-Q学习来选择是否登记访问的地方,从而保护他们的追踪隐私。[24]中的医疗设备使用Dyna-Q学习选择卸载策略,以保护用户位置隐私和数据使用模式隐私。[10]中的用户配置文件扰动方案应用DQN来选择隐私预算,但是容易受到评估所有用户配置文件和频繁发送广告的推断攻击。

3.System Model

A.Network Model
如Fig1所示,一个用户设备Bob需要电影、音乐、购物或者健康服务的推荐服务。推荐服务器根据Bob最近在过去的W个时隙中点击的项目,以获取用户最近的兴趣并提供更高质量的推荐服务,并根据[25]的预训练的推荐算法从数据库中的N个项目中推荐H个项目给Bob。其中的H个项目的IDs用 [ n i ( k ) ] 1 ≤ i ≤ H [n_i^{(k)}]_{1≤i≤H} [ni(k)]1iH 表示。服务器根据[26]和[27]评估它们的灵敏度水平 [ z i ( k ) ] 1 ≤ i ≤ H ∈ { 0 , … , Z } H [z_i^{(k)}]_{1≤i≤H}∈{\{0,…,Z\}}^H [zi(k)]1iH{0,,Z}H,并应用[28]中的TF-IDF 去评估他们的关于B分类的特征 [ v i , j ( k ) ] 1 ≤ i ≤ H , i ≤ j ≤ B ∈ { 0 , 1 } H × B [v_{i,j}^{(k)}]_{1≤i≤H,i≤j≤B}∈{\{0,1\}}^{H×B} [vi,j(k)]1iH,ijB{0,1}H×B
Bob从H个物品中选取物品 p ( k ) , 1 ≤ p ( k ) ≤ H p^{(k)},1≤p^{(k)}≤H p(k),1p(k)H,选择隐私预算 x ( k ) ∈ { i X ∣ L : 0 ≤ i ≤ L } x^{(k)}∈{\{iX|L:0≤i≤L\}} x(k){iXL:0iL}来扰动选中的物品。根据[11]中的差分隐私方法,用户设备选择物品 r ( k ) ∈ { 1 , … , H } r^{(k)}∈{\{1,…,H\}} r(k){1,,H}发给服务器。
在这里插入图片描述
B.Attack Model
推断攻击者Eve想要根据发布的项目给Bob发送垃圾邮件或广告。更具体来说,Eve估计 r ( k ) r^{(k)} r(k),并应用一个类似基于马尔科夫链的推断算法来猜测Bob的偏好。Eve选择一个攻击概率 y ( k ) ϵ [ 0 , 1 ] y^{(k)}ϵ[0,1] y(k)ϵ[0,1]即发送垃圾邮件或广告的概率。在不引起混淆的情况下,我们省略时间指数也就是上标k,为方便参考,我们常用的符号总结在Table1。
在这里插入图片描述

4.基于深度强化学习的用户画像扰动

我们提出了一种基于深度RL的用户画像扰动方案,该方案基于被点击项目的敏感程度、推荐项目之间的相似性以及先前的隐私指标来选择隐私预算 x ( k ) x^{(k)} x(k)
在从服务器收到推荐结果及其隐私要求 [ z i ( k ) ] 1 ≤ i ≤ H ) [z_i^{(k)}]_{1≤i≤H)} [zi(k)]1iH)和特征 [ v i , j ( k ) ] 1 ≤ i ≤ H , i ≤ j ≤ B ) [v_{i,j}^{(k)}]_{1≤i≤H,i≤j≤B)} [vi,j(k)]1iH,ijB)之后,用户设备计算点击过的项目p和H个推荐的项目的特征之间的余弦相似度。
在这里插入图片描述
System State Space(系统状态空间):状态 s ( k ) s^{(k)} s(k)包括已点击项目的隐私需求,推荐的项目之间的相似度和过去的隐私指标 ξ ( k − 1 ) ξ^{(k-1)} ξ(k1)
在这里插入图片描述
将系统状态空间记作S,包括所有可行的隐私需求,相似度和隐私指标。
在这里插入图片描述
状态在Algorithm1作为输入评估神经网络NN,神经网络包括三个FC层,分别有 f 1 , f 2 和 L + 1 f_1,f_2和L+1 f1,f2L+1个单元。前两个 FC 层使用漏整线性单元作为激活函数。带有权重 θ ( k ) θ^{(k)} θ(k)的评估NN,输出对于 L + 1 L+1 L+1个可行的隐私预算在对应的Q值
Q ( s ( k ) , ∙ ; θ ( k ) ) Q(s^{(k)},∙;θ^{(k)}) Q(s(k),;θ(k))。如Fig2所示,目标神经网络和评估神经网络具备同样的网络结构,权重 ω ( k ) ω^{(k)} ω(k)估计在最大化当前状态下的Q值时隐私预算的目标Q值。和[29]中的迁移学习相似,评估神经网络的权重 θ ( k ) θ^{(k)} θ(k)使用类似的隐私感知推荐系统中收集的用户画像扰动经验进行初始化,而不是使用小的随机值,目标神经网络在初始时隙 k = 1 k=1 k=1时使用评估神经网络的权重来做初始化。
在这里插入图片描述
Action Space(行动空间):用户设备使用ε-贪婪算法,评估神经网络输出 Q ( s ( k ) , ∙ ; θ ( k ) ) Q(s^{(k)},∙;θ^{(k)}) Q(s(k),;θ(k))从行动空间 X = i X ∣ L : 0 ≤ i ≤ L X={iX|L:0≤i≤L} X=iXL:0iL来选择行动或隐私预算 x ( k ) x^{(k)} x(k)
该方案使用一种称为指数机制的差分隐私方法来干扰被点击的项目,以获得更高的推荐质量。更具体地,公开项目r的概率取决于被点击项目p的特征和被推荐项目H的特征之间的相似性,即
在这里插入图片描述
用户设备发送物品r来获得推荐服务并评估最近收到的垃圾邮件和广告来设置隐私预算 ξ k ξ^k ξk。比如说,如果收到与之前点击过的项目高度相关的垃圾邮件或广告,则设 ξ k = 1 ξ^k=1 ξk=1,否则 ξ k = 0 ξ^k=0 ξk=0
Utility Function(实用功能):该方案评估效用 u k u^k uk它取决于已点击项目和发布的项目之间的相似性、扰动强度和隐私指标
在这里插入图片描述
新状态 s ( k + 1 ) s^{(k+1)} s(k+1)根据公式2计算,扰动经验 [ s ( k ) , x ( k ) , u ( k ) , s ( k + 1 ) ] [s^{(k)},x^{(k)},u^{(k)},s^{(k+1)}] [s(k),x(k),u(k),s(k+1)]存储在内存池D中。基于从内存池D中均匀随机选取的G经验构建一个minibatch, [ e g ( j ) ] 1 ≤ j ≤ G [e^{g(j)}]_{1≤j≤G} [eg(j)]1jG,其中 g ( ) − U ( 1 , k ) g()-U(1,k) g()U(1,k)。根据随机梯度下降方法,评估神经网络根据公式6更新其权重 θ ( k + 1 ) θ^{(k+1)} θ(k+1)。更具体来说,根据Algorithm1可以最小化目标Q值和评估的Q值之间的平方根误差。目标神经网络每C个时隙就复制评估神经网络的权重来更新自己的权重 ω ( k + 1 ) ω^{(k+1)} ω(k+1)
在这里插入图片描述
5.表现评价
我们提出了一个隐私感知推荐模型来评估我们的DUPP方法的表现上界,也就是DUPP的收敛性能。在这个模型的每一个时隙,用户设备选择隐私预算 x ( k ) ∈ [ 0 , X ] x^{(k)}∈[0,X] x(k)[0,X]来优化公式5中的效用 u ( k ) u^{(k)} u(k),攻击者Eve选取一个攻击概率 y ( k ) y^{(k)} y(k)来降低用户设备的效能。H个推荐的物品被视为具有相同的隐私水平Z。
根据[22],用户设备的隐私损失模型为:
在这里插入图片描述
因此,用户设备的隐私保护等级为 1 − φ ( k ) 1-φ^{(k)} 1φ(k)
和[1]中类似,推荐质量 ρ ( k ) ρ^{(k)} ρ(k)近似建模为公开的项目r和点击项目p之间的特征相似性。
在这里插入图片描述
Eve决定一个攻击概率 y ( k ) ∈ [ 0 , 1 ] y^{(k)}∈[0,1] y(k)[0,1],表示其对用户发送垃圾邮件或广告的概率,当随机变量 d   U ( 0 , 1 ) < y ( k ) d~U(0,1)<y^{(k)} d U(0,1)<y(k)时,Eve会发生与用户设备选择的项目高度相关的垃圾邮件或广告。【攻击成功?】在计算资源有限的情况下,假设Eve的效用可由下式进行估计:
在这里插入图片描述
下面我们分析隐私感知推荐模型的Nash均衡来计算DUPP的性能上界。
Theorem1: DUPP的隐私保护级别、推荐质量和效用的上限由下式给出:
在这里插入图片描述
证明:
在这里插入图片描述
在这里插入图片描述
根据公式20和22,(X,0)是这个模型的Nash均衡。因此,通过公式7,15和17,我们能得到公式10-12。
备注1:如果攻击成本与点击项目的敏感度和推荐项目之间的相似度(如公式14所示)相比较高,则推荐系统保护用户资料免受Eve的侵害并减少隐私损失,(如公式10所示)。如果推荐项目之间的相似性满足公式13并且敏感性水平低如公式14所示,则用户设备选择最大隐私预算并提高公式11中的推荐质量。在这种情况下,用户设备减少了隐私损失,由此产生的性能界限由公式10-12给出。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如Fig3所示,Eve选择Q和Z=1的攻击概率,DUPP在1000个时隙后可以达到公式10给出的隐私损失界限,公式11中的推荐质量界限和公式12中的效用界限。
根据[30],DUPP的计算复杂度主要取决于两个NN中的乘法次数。评估的NN同时执行前向传播和反向传播,而目标NN仅执行前向传播。评估的NN的输入大小和输出大小分别为H + 2和L + 1,DUPP会对每个时隙的G经验进行采样。
评估NN的前向传播需要 o 1 o_1 o1次乘法,通过[30],我们有
在这里插入图片描述
评估NN的后向传播需要 o 2 o_2 o2次乘法,
在这里插入图片描述
目标NN需要 o 3 o_3 o3次乘法,
在这里插入图片描述
Theorem2: DUPP的计算复杂度ϕ如下式:
在这里插入图片描述
证明见附录。
备注2:DUPP的计算复杂度主要取决于batch大小G、推荐项目数H、隐私预算量化级别L以及网络前两个FC层中的NN节点数。DUPP在每个时隙在以往经验中少量抽样作为一个batch,将隐私预算量化为更少的级别,并设计具有更少节点的NN以节省计算开销。

6.仿真结果

我们对DUPP进行了模拟来评估算法的性能,使用了公开的电影推荐数据结构Movielens 1M(包括3952个电影,分为19个类别例如上映年份和电影类型等)。推荐服务器应用[25]中的推荐算法基于Bob的十部电影历史每个时隙为他推荐15部电影。Eve采用[1]中的推断算法来预测Bob的喜好并发送广告。若无特殊说明,则Eve以攻击概率给Bob发送广告以最大化自身效率。评估NN和目标NN的参数都为 f 1 = 64 , f 2 = 128 f_1=64,f_2=128 f1=64,f2=128,参数是根据经验选择的,并进行微调以获得更高的推荐质量、更低的隐私损失和更少的计算开销。
如Fig4所示,DUPP优于基准方案D2P和RUPP,具有更少的隐私损失且取得了相似的推荐质量。
在这里插入图片描述
在这里插入图片描述
例如,在1000个时隙后,DUPP与D2P相比,隐私损失减少了66.7%,效用提高了33.9%。与RUPP相比,在3000个时隙之后,DUPP将隐私损失降低了33.3%,效用提高了7.1%。与RUPP相比,DUPP节省了66.7%的收敛时间,这是由于改进的网络架构具有评估的NN和目标NN以减轻RL高估。
在这里插入图片描述
Fig5给出了本方案平均运行50次以上,每次运行4000个时隙的性能。Figs5(a)显示,随着攻击概率从0.2增加到0.7,推荐质量在0.94和0.96之间略有变化,因为我们提出的方案的推荐质量对攻击概率具有鲁棒性。如Figs5(b)所示,用户画像扰动方案的隐私损失随着攻击概率的增加而增加,在强攻击方面,DUPP比 D2P和RUPP更鲁棒。例如,如果攻击概率小于0.7,则DUPP的隐私损失小于0.08。由于攻击概率在0.2到0.7之间,DUPP在隐私损失方面的性能要比D2P的28.8%优很多。如Figs5©所示,由于隐私损失的增加,DUPP的效用随着攻击概率的增加而降低。即使在强推理攻击下,其性能比要比D2P效用高20.3%。

7.Conclusion

在本文中,我们为推荐系统提出了一种基于深度RL的用户画像扰动方案。通过应用差分隐私,该方案使用户设备能够保护隐私免受推理攻击,并且可以在隐私感知电影推荐系统中实施,每部电影都在19个类别中进行评估。公共电影数据集的模拟结果显示其性能优于基准方案D2P和RUPP。例如,与D2P相比,我们提出的方案DUPP在1000次体验后将类似推荐质量的用户隐私保护水平提高了9.1%。进一步研究的一个有趣主题是提高用户画像扰动方案的隐私保护性能,以针对当前隐私泄漏状态具有长评估延迟的用户设备。另一个有趣的话题是在智能手机中实现所提出的方案以接收其他推荐服务,例如医疗保健和在线购物。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值