第 10 讲:联邦拆分推荐SplitRec

跨域推荐场景的挑战

SplitRec是隐语拆分学习针对跨域推荐场景中的模型训练所提供的一系列优化算法和策略
在传统推荐场景中,用户的数据通常需要上传到中央服务器进行模型训练。而跨域推荐场景是指联合分布在不同域的数据进行分布式训练的推荐场景。例如一个用户在一个短视频平台看了很多短视频,在另一个电商平台被推荐相关的广告,电商平台除了自有数据外,也希望从短视频平台的数据中挖掘相关的信息。同时出于数据安全考虑,各平台数据不能被上传到中央服务器进行集中式的机器学习训练,这种联合分布在不同域的数据进行模型训练的场景很适合用联邦学习中的拆分学习。
“域”(Domain)通常指的是一个具有相同特征或属性的数据集合。例如,一个短视频平台、一个社交媒体网站、一个电子商务网站都可以被视为一个独立的域。每个域都有其独特的用户群体、内容类型、用户互动模式以及业务逻辑。
不同域的数据可能具有不同的格式、结构、语义和分布。例如,一个短视频平台和一个电商平台就是两个不同的域。短视频平台的数据可能主要包括视频观看历史、用户点赞、评论等信息,而电商平台的数据可能主要包括购物历史、搜索记录、点击行为等信息。
隐语中提供了拆分学习的基础框架:每一个参与方拥有模型结构的一部分,所有参与方的模型合在一起形成一个完整的模型。训练过程中,不同参与方只对本地模型进行正向或者反向传播计算,并将计算结果传递给下一个参与方。多个参与方通过联合模型进行训练直至最终收敛。
一个拆分学习的经典案例是银行的市场营销。市场营销是银行业在不断变化的市场环境中,为满足客户需要、实现经营目标的整体性经营和销售的活动。不同银行和机构可能持有相同用户的不同特征,银行希望利用其他机构的用户特征,为营销模型提供更多信息。
跨域推荐模型将不同域的用户数据联合起来建模,相比传统推荐系统收集到的数据更多更丰富,同时由于数据分布在不同域,在精度、效率和安全性上都对模型的训练提出了很多挑战,主要有以下三点:

  • 模型效果上,例如DeepFM等复杂模型能否直接放到拆分框架中使用?
  • 训练效率上,模型训练中每个 batch 的前反向计算中的通信是否会严重降低训练效率?
  • 安全性上,通信的中间数据是否会造成信息泄露,引起安全性问题?
    在这里插入图片描述

隐语的拆分学习基础架构

在这里插入图片描述

跨域推荐的全链路解决方案

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值