ABSTRACT
异质信息网络(HIN)包含丰富的语义信息,这些信息由元路径(meta-paths)描述,已经成为缓解推荐系统中数据稀疏问题的重要工具。然而,现有的基于HIN的推荐系统通常假设数据是集中存储和训练的。但是,在现实世界中,由于隐私问题,数据往往是分布存储的,这导致HIN中的语义破裂问题,并使集中式HIN推荐系统失效。
ps:推荐系统中数据稀疏问题比如现有10000个电影数据和10个观众数据,但这10个观众不一定都看过这10000个电影,并且也不是说看过的电影一定会写评价。而由于缺乏观众对电影的反馈,所以就给推荐系统增加了难度。
本文建议将HIN划分为客户端存储的私有HIN和服务器上的共享HIN。提出了一个基于FedHGNN的框架,用于在保护用户隐私的前提下,利用分布式HIN进行协作训练推荐模型。
HIN缓解数据稀疏问题举例如下:
一、INTRODUCTION
推荐系统在缓解各种在线应用中信息过载带来的挑战方面发挥着至关重要的作用。然而,它们的有效性受到用户交互稀疏性的限制。
为了解决这一问题,包含多类型实体和关系的异构信息网络( HIN )被广泛用于增强用户和物品的连接。作为HIN中的基本分析工具,元路径[ 32 ],一种连接节点对的关系序列,被广泛用于捕获HIN的丰富语义。不同的元路径可以描述不同的语义,
如图1所示,HIN中用于电影推荐的元路径UMU表示两个用户观看了同一部电影,UMDMU表示两个用户观看了同一位导演导演的电影。
大多数基于HIN的推荐方法利用基于元路径的语义来学习有效的用户和项目嵌入。其中,早期的工作将基于元路径的语义融入到用户-项目交互建模中,以增强其表示。
近年来,图神经网络( graph neural networks,GNNs )的出现为自动捕获基于元路径的语义提供了强有力的方法。
这些基于GNN的方法沿着元路径聚合节点嵌入来融合不同的语义,称为基于元路径的邻居聚合,为基于HIN的推荐提供了一个更加灵活的框架。
现有的基于HIN的推荐方法的基本假设是数据集中存储。如图1 ( a )和( c )所示:
在此假设下,整个HIN是可见的,可以直接用于捕获基于元路径的语义进行推荐。然而,由于用户-物品交互数据具有高度隐私敏感性,且集中存储会泄露用户隐私,这一假设在现实中可能并不成立。
因此,集中式数据存储在未来可能是不可行的。作为一种更现实的学习范式,联邦学习( FL )应运而生,使用户能够在本地保留个人数据,并通过仅传递中间参数的方式联合训练一个全局模型。
联邦推荐( FedRec )是FL在推荐场景中的一个重要应用,近年来许多工作致力于FedRec的研究。大多数研究集中在传统的基于矩阵分解( Matrix Factorization,MF )的FedRec [ 3、18],其中用户嵌入保持局部更新,项目嵌入的梯度上传至服务器进行聚合。
最近,一些研究探索了基于GNN的FedRec。他们在用户-项目二分图上训练局部GNN模型,并传递嵌入和模型参数的梯度。尽管他们取得了成功,它们仍然受到数据稀疏性问题的困扰,而分布式数据存储进一步加剧了这一问题。
一个自然的解决方案是利用HINs来丰富稀疏的交互。然而,开发基于HIN的FedRec并非易事。它面临着两个重大的挑战。
1 )如何在基于HIN的FedRec中给出隐私的正式定义?
在基于HIN的FedRec中,传统的基于用户-项目交互的定义可能是不可行的。除了私有的用户-项目交互,基于HIN的FedRec还可以利用额外的共享知识,这些知识不包含隐私,可以在用户之间共享( (例如图1中的电影类型和电影导演关系( a ) ),这也可能会暴露用户的高阶模式,例如他们最喜欢的电影类型。
因此,我们应该仔细考虑基于HIN的FedRec的现实隐私约束,并给出严格的隐私定义,从而使隐私得到严格的保护。
2 )如何在保护定义隐私的同时,恢复基于HIN的FedRec的破损语义?
HIN在FedRec中以分布式的方式存储,如图1 ( b )所示,用户只能访问其一跳邻居(交互的物品)。因此,元路径所描述的整体语义被破坏,导致无法进行基于元路径的邻居聚合,而这正是基于HIN的推荐的关键部分。
如图1 ( c )和( d )所示,由于语义UMU和UMDMU被破坏,基于元路径的邻居聚合失败。
<