《基于域相关和域无关特征融合的隐私保护跨域健康可穿戴推荐算法》个人学习

A Privacy-Preserving Cross-Domain Healthcare Wearables Recommendation Algorithm Based on Domain-Dependent and Domain-Independent Feature Fusion

原论文链接

https://ieeexplore.ieee.org/document/9393622

Privacy-Preserving Cross-Domain Healthcare Wearables Recommendation(PPCDHWRec)基于域相关特征与域无关特征融合。

摘要

考虑到消费者经常购买或者评分电子商务平台上其他种类(非医疗方面,例如有食品、户外)的商品,我们可以将不同的辅助域中的重要信息利用起来,提高医疗可穿戴的推荐性能,这个也可以认作为跨域推荐。然而,传统的跨域推荐模型不能充分表示用户的属性,也没有考虑信息迁移过程中原始辅助域评分信息的遗漏。为了克服这两点,作者提出了Privacy-Preserving Cross-Domain Healthcare Wearables Recommendation algorithm(PPCDHWRec).首先,将用户的属性特征分成域相关特征和域无关特征两类,这样能够相互补充且能充分刻画用户的属性信息。第二,受到潜在因子模型的激发,作者通过Funk-SVD和Orthogonal Nonnegative Matrix Tri-Factorization(ONMTF)模型分解每一个辅助域的原始评分信息,由此分别获得用户的域相关特征和域无关特征。最后,利用因式分解机Factorization Machine融合得到带有目标域信息的用户特征,然后提供推荐结果。 通过隐藏因式分解过程获得的项目潜在因子,PPCDHWRec能够确保用户原始信息不会从迁移后的用户隐藏向量推导出来,从而保证了用户隐私保护。

对前人工作提及

基于内容的推荐模型CB根据用户过去喜爱的项目的属性信息来推荐相似项目给用户,这个就特别需要项目的特征表示。因此,不准确或者不充分的特征表示会严重影响CB的推荐效果。
所谓的跨域推荐,例子:用上电商的数据和外卖的数据,来给医疗行业搞推荐。就好比如淘宝搜了什么,抖音就能推荐什么。
当前的跨域研究有两类:信息整合和知识整合。
信息整合方法通过将目标域的评分矩阵和辅助域的评分矩阵concatenate起来,就能够解决目标域中数据稀少的问题。但是性能不是很理想,原因是没有考虑目标域和辅助域在项目性质上的差异。
而知识整合方法因为考虑了目标域和辅助域在项目性质上的差异,因此性能上要由于信息整合方法。但是由于这方法使用辅助域信息不能充分表示用户特征,所以他们的性能也不是特别好。

跨域推荐的挑战

跨领域实现隐私保护有两个方面的挑战:①在跨域场景中,如何充分表示用户特征信息并且避免负面迁移?②如何避免跨域信息迁移中,用户的隐私泄露。
第一个挑战:将用户的特征表示分成域相关和域无关两类,将这两个相辅相成。
第二个挑战:利用因式分解将每一个辅助域中的原始评分信息分解成用户潜在向量和项目潜在向量,retaining(翻译成隐藏) the item latent vectors and disclosing the user latent vectors。这样就可以阻止通过向量点积来推出原始评分矩阵。

大致思路

首先,通过使用基于潜在因子模型(即Funk-SVD和Orthogonal Nonnegative Matrix Tri-Factorization(ONMTF))的辅助域信息,抽取域相关特征和域无关特征。

Y. Koren, R. Bell, and C. Volinsky, “Matrix factorization techniques for recommender systems,” Computer, vol. 42, no. 8, pp. 30–37, 2009. 潜在因子模型论文参考

然后,使用因式分解机将两类特征与目标域信息有效融合起来。特征的权重在训练过程中会自动学习。

S. Rendle, “Factorization machines with libFM,” ACM Trans. Intell. Syst.Technol., vol. 3, no. 3, pp. 57:1-57: 22, 2012. 因式分解机论文参考

两种特征

域相关特征domain-dependent features:与领域具体内容相关的用户特征,例如用户喜欢的音乐风格、电影主题等。

域无关特征domain-independent features:与领域具体内容无关的用户特征,例如用户年龄、性别等。

域相关特征的抽取

作者基于辅助域评分矩阵 M M M,使用 F u n k − S V D Funk-SVD FunkSVD,一种潜在因子模型,来抽取用户的域相关特征。

F u n k − S V D Funk-SVD FunkSVD的核心是将用户和项目映射至维度为 k k k的同一个潜在因子空间。每一个项目 i i i都可以被一个潜在因子向量 q i ∈ R k q_i∈R^k qiRk表示. 其中每一个元素 q i j q_{ij} qij 表示该向量属于哪一个具体的实体的程度. 每一个用户 u u u也都能被偏好向量 p u ∈ R k p_u∈R^k puRk表示.

F u n k − S V D Funk-SVD FunkSVD模型中, 我们使用SGD算法来优化如下方程:

在这里插入图片描述

κ κ κ是已知评分 r u i r_{ui} rui ( u , i ) (u,i) (u,i)的集合, λ λ λ是用来避免过拟合的正则化参数, 可以用10-fold cross-validation来决定 λ λ λ的值.

对于 q i , p u q_i,p_u qi,pu的具体训练迭代过程如下:

在这里插入图片描述

这里 e u i = r u i − q i T p u e_{ui}=r_{ui}-q^T_ip_u eui=ruiqiTpu, γ γ γ是学习率, 并使 γ = 1 τ , τ γ=\frac{1}{τ},τ γ=τ1,τ是当前的迭代次数. 总的算法如下:

在这里插入图片描述

域无关特征的抽取

相比于域相关特征, 域无关特征与领域的具体内容无关, 因此跟容易迁移至目标领域.

作者采用ONMTF模型将评分矩阵分解成三部分: 第一个是用户潜在因子矩阵 U U U, 第二个是项目潜在因子矩阵 V V V, 第三个是描述用户潜在因子与项目潜在因子之间的交互关系矩阵 B B B. 显然, U U U V V V不再享有相同维度的空间, 因此需要 B B B来连接 U U U V V V来做矩阵乘法.

在ONMTF模型中要解决下述优化方程:
在这里插入图片描述

迭代过程如下:

在这里插入图片描述

算法如下:

在这里插入图片描述

基于FM的信息融合

PPCDHWRec模型使用FM将抽取出来的两种特征与目标域信息融合起来. 在这里, 作者将目标域信息和域无关特征和域相关特征组合起来构建一个训练集, 如下图:

在这里插入图片描述

D 0 D_0 D0为目标域, 其余为辅助域.

用户和项目以及相应的评分信息 ( u , i , r u i ) (u,i,r_{ui}) (u,i,rui)可以由用户ID和项目ID的单热向量嵌入组合表示. 评分信息 r u i r_{ui} rui被用来当作分类问题中标签值.

设用户域相关特征表示为 p D i d ( i = 1 , 2 , … , n ) p_{D_i}^d(i=1,2,\dots,n) pDid(i=1,2,,n), 用户域无关特征表示为 p D i i n d ( i = 1 , 2 , … , n ) p_{D_i}^{ind}(i=1,2,\dots,n) pDiind(i=1,2,,n). 它们会被扩充至相应用户特征向量里头. 目标域的评分信息 ( u , i , r u i ) (u,i,r_{ui}) (u,i,rui)最终会被扩展成如下形式, m m m n 0 n_0 n0分别代表用户和项目在目标域中的数目.

在这里插入图片描述

因此, 辅助域信息以特征向量扩展的方式迁移至目标域. 另外, 为了避免负面影响的迁移, 作者基于FM在特征向量中充分融合了不同的特征. 由于高阶FM模型的计算量太多, 因此作者只采用二阶FM模型来特征融合. 最终 ,该论文的推荐模型 , 即预测模型如下:

在这里插入图片描述

ω 0 , ω i , ω i j ω_0,ω_i,ω_{ij} ω0,ωi,ωij分别表示全局偏差, 特征 x i x_i xi的权重系数和特征 x i , x j x_i,x_j xi,xj交互的权重系数, N N N表示扩展后特征向量的维度. ω i j ω_{ij} ωij可以表示为 ω i j = V i T V j ω_{ij}=V_i^TV_j ωij=ViTVj, V i V_i Vi V j V_j Vj分别表示 x i x_i xi x j x_j xj对应的潜在因子向量, 潜在因子向量的维度 k k k基于10-fold cross-validation决定.

为了训练FM模型, 要最下化下述优化问题:

在这里插入图片描述

S S S为训练集, λ ω 0 , λ ω , λ v λ_{ω_0},λ_ω,λ_v λω0,λω,λv为正则化系数. 为了更有效率地训练FM模型, 作者采用SGD来解决FM模型. 迭代方法如下:

在这里插入图片描述

η η η为学习率. 基于上面的算法1和算法2, 作者提出的PPCDHWRec的最终算法如下

在这里插入图片描述

​ 其中 P D i d P_{D_i}^d PDid是通过算法1输出的用户第 i i i个辅助域的域相关特征表示, P D i i n d P_{D_i}^{ind} PDiind是通过算法2输出的用户第 i i i个辅助域的域无关特征表示.

因为要保持用户隐私性, 因此算法1和算法2中并没有输出项目的特征表示. 否则 目标域工作人员可以利用项目特征表示和用户特征表示还原出用户在辅助域中的评分信息.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值