【论文阅读】Recommending What Video to Watch Next: A Multitask Ranking System

本文致力于解决推荐系统中的三个问题:

  • 输入特征是多模态的情况下(视频信息,缩略图信息,文字标题,用户特征,上下文特征等),且这些特征的纬度和稀疏度相差很大,如何有效抽取和综合这些特征。
  • 对于一个项目来说,很有可能同时存在多个优化目标,这些目标不会完全一致,甚至会相互冲突。若为每一个目标训练一个模型,则所需数据量及计算量太大,不符合工程要求;若使用参数or模型共享的方法,因为有些objective相关性不大,甚至是相互冲突的,因此网络难以收敛。如何在使用轻量级网络的同时,有效学习多个目标,是一个挑战。
  • 因为推荐系统大部分是基于隐含的用户反馈进行训练的,因此在这些用户反馈和用户的真实喜好之间存在gap。用户是否点击或浏览一件东西,不但是根据用户的喜好而定,也会受到推荐系统的影响。推荐的东西&排序高的东西,用户有更大的可能性去点击。而这些点击数据又会反过来强化推荐系统,形成feedback loop,长此以往,推荐系统的推荐会有越来越大的bias。如何在系统中识别并减少这些bias,是一个很重要的课题。

解决方法:

多模态特征空间

每个task根据objective的不同,着重学习一部分多模态输入特征,使得总体的学习难度下降。

多优化目标的平衡
  • 在共享的嵌入层和隐藏层之上,构建n个并行的网络结构(专家网络),再为每个task构建一个门网络(输出为n维的权重向量),门网络负责决定每个专家网络对此task的决策力量(即:为n个专家网络生成权重向量)。
  • 因此不同的task的预测值会由不同权重的专家网络的输出组成,即保证了一定程度的网路共享,也让不太相关甚至冲突的task能共用同一模型。
  • 更新参数时,每个专家网络根据它对当前task的贡献程度,得到不同程度的更新。使得网络在多目标的场景下,也能收敛。
  • 提供服务时,网络生成n个task各自的预测值。根据业务需求,综合这n个预测值(例如:更看重CTR得分,或更看重分享率等),即为最后的排名优先级。
隐式反馈形成的feedback loop

用户的隐式反馈并不能完全反应用户的偏好,而是会受到推荐系统的影响:不太感兴趣的item被系统以高优先级推荐时,用户也有点击它的可能性。
因此,在使用隐式反馈数据进行模型训练时,如何模拟出这部分因素带来bias,并在后续推荐中排除它的影响,至关重要。
当前常用的方法有2个:

  • 法1:把可能带来bias的特征,如推荐时的位置信息等,加入模型中一起训练,使模型考虑它对预测值的影响。
    inference时,相关特征置0或统一置为固定值,排除这些特征给预测结果带来的影响。
  • 法2: 使用与feedback loop相关特征来学习selection bias的大小,并把学到的selection bias加到主排序模型的bias中。

这两种方法都可以适应快速变化的输入特征分布,以end-to-end的模式和主排序模型一起训练使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值