MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection 走读

摘要

推荐系统经常面对包含高度个性化的用户历史数据的异构数据集,在这些数据集中,没有哪个模型可以为每个用户提供最佳建议。我们在公共和私有数据集上都观察到了这种普遍存在的现象,并在追求优化每个用户的推荐质量的过程中解决了模型选择问题。我们提出了一个元学习框架,以促进推荐系统中对用户类型的自适应模型选择。在此框架中,将使用来自所有用户的数据来训练推荐系统集合,然后通过元学习对模型选择器进行训练,以使用用户特定的历史数据为每个用户选择最佳的单个模型。我们在两个公共数据集和一个真实世界的生产数据集上进行了广泛的实验,证明了我们提出的框架在AUC和LogLoss方面实现了对单个模型基线和样本级别模型选择器的改进。特别是,当将这些改进部署在在线推荐系统中时,可能会带来巨大的利润增长。

Intro

在推荐系统中,深度学习技术从大量用户数据中发现有用的行为模式,并在各种场景下提供精确且具有个性化的推荐。来自一个用户的数据可能稀疏且不足以支持有效的模型训练。在实践中,深度神经网络在大量用户上进行协作训练,因此区分特定用户进行个性化推荐非常重要。因此,某些用户识别过程通常会与模型训练过程保持一致,例如为每个用户编码唯一的ID或用户历史信息,或者在提出建议之前对用户本地数据进行微调。

尽管某些推荐模型可以实现比其他模型更好的总体性能,但是对于每个用户而言,不可能有一个模型比其他模型具有更好的性能。换句话说,可以通过不同的推荐模型来实现对不同用户的最佳性能。我们在线上环境和公共数据集上都观察到了这种现象。例如,在一个在线广告系统中,同时部署了多个点击率预测模型。我们发现,没有任何一个模型对所有用户都表现最佳。此外,就平均评估而言,没有哪个模型能达到历史最佳性能。这意味着推荐模型的性能对特定的用户数据敏感。因此,深度推荐系统中的用户级模型设计具有研究兴趣和实用价值。

在这项工作中,我们解决了用户级模型选择问题,以提高个性化推荐质量。 给定一个深层模型集合,目标是从中为每个用户选择最佳模型,或将这些模型组合起来以发挥最大优势。 我们在特定推荐模型的上方引入模型选择器,以决定要为用户使用哪种模型。 考虑到元学习的快速适应能力,我们制定了元学习设置下的模型选择问题,并提出了元选择器,该方法通过元学习方法来训练模型选择器和推荐模型。

元学习算法通过从许多相关任务中学习,最终模型能有效地解决新任务。特别令人感兴趣的是基于优化的方法,例如MAML算法,该方法适用于参数由随机梯度下降(SGD)更新的各种模型。 MAML涉及两级元学习过程。外循环位于任务级别,在该级别,算法维护参数的初始化。目的是优化初始化,以便在应用于新任务时,在对训练集进行一次或几次渐变更新后,初始化会导致测试集的最佳性能。内部循环在任务内执行。接收到外部循环中维护的初始化后,该算法将调整训练集上的参数,并根据测试集评估模型。测试装置上的评估结果将损失信号返回到外部环路。经过元训练之后,在元测试或部署阶段,学习到的初始化可以快速适应新任务。

如果我们将每项任务视为学习预测用户选择偏好的模型,那么Mete-Learning非常适合模型选择。如图1所示,在我们的方法中,我们使用基于优化的元学习方法来构造MetaSelector,该MetaSelector学习从多个任务中进行模型选择,其中一个任务由一个用户的数据组成。给定推荐请求作为输入,MetaSelector在推荐模型上输出概率分布。在元训练阶段,学习优化MetaSelector的初始化[14]。

在每个轮次中,都会抽样一批任务,每个任务都有一个支持集和一个查询集。在每个任务的支持集上,根据MetaSelector的输出进行软模型选择。使用通过将最终预测与真实情况进行比较而获得的训练损失来更新MetaSelector的参数。然后,对查询集评估适配的MetaSelector,并类似地计算测试损失以更新外循环中的初始化。推荐模型在外循环中一起更新,可以在元训练过程之前进行预训练。在部署阶段,通过学习到的初始化,MetaSelector使用个性化的历史数据(支持集)适应单个用户,并汇总新查询的推荐模型结果。

我们通过

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值