YouTube视频推荐中的召回模型和排序模型-Deep Neural Networks for YouTube Recommendations

1.YouTube论文概述

YouTube在16年发的这篇经典paper,同时解决了推荐系统的召回问题和排序问题,因此也有两个网络模型:

1.召回模型:作用是从上百万的视频库中选出数百个与用户最相关的视频;
2.排序模型:作用是从上百个与用户相关的召回视频中选出几十个打分最高的视频。

paper中提出了在YouTube推荐系统中三个具有挑战性的难题:

  • Scale:大规模,在其他问题表现比较好的算法模型拿过来都没法用,因为youtube用户基数和语料库特别大,需要分布式算法和高效的线上服务系统来解决;
  • Freshness:新鲜度,youtube语料库中每秒钟都会有较长的视频更新进来,那么推荐系统应该能够基于新上传的视频和用户最新的行为来推荐,因此需要平衡新上传内容和之前已经入库的视频;
  • Noise:数据噪声
    • label难以获取:youtube上的历史用户行为本来就是难以预测的,因为用户行为具有稀疏性和很多观察不到的外部因子,很难得到用户满意度的ground truth,而是只能去建模具有噪音的用户隐式反馈信号。
    • 视频数据结构化程度不好:和视频相关的元数据结构不良,没有明确定义的本体。

YoutuBe视频推荐的的系统架构如下图所示,这也符合业界大多数推荐系统的思路,即先对大规模物料库使用简单算法召回、策略召回、深度模型召回等方式,召回一定量级的候选集,然后排序模型对候选集中每个物料进行打分,并最终返回top N的物料展现给用户。举个例子,在某生活服务电商场景下的猜你喜欢模块,从全部200个物料中,召回60个候选集,排序模型最后输出打分的top20物料展现给用户。
在这里插入图片描述
再来说一下在YoutuBe场景下,video corpus经过candidate model和ranking model的选择,最终选出较少的相关视频呈现给用户;candidate model阶段主要通过协同过滤算法进行个性化,用户之间的相似性是通过IDs of video watches, search query tokens and demographics;ranking model阶段就需要更加细粒度的特征表达以此来区分具有较高召回率的候选视频之间的相对重要性,同时在此阶段可以看到还有other candidate sources的输入,即混合了其他方式得到的候选集(这里引用了youtube之前的一篇paper)。

2.召回模型

2.1.模型细节

召回模型架构如下所示:
在这里插入图片描述
下面paper从五个方面阐述了召回模型的细节之处:

  • 问题转换:paper将预估用户u视频v的点击率问题转化成一个多分类问题,也就是后面会提到的 next video的问题。由于是一个多分类问题,因此相应的概率计算公式为
    P ( w i = t ∣ U , C ) = e v i u ∑ j ∈ V e v i u P(w_{i}=t|U,C)=\frac{ e^{v_{i}u} }{ \sum_{j \in V} e^{v_{i}u} } P(wi=tU,C)=jVev
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值