导读
工业界的推荐系统通常包括召回、粗排、精排以及重排四个阶段,如图一所示,每个阶段都像是一个漏斗,从海量的物品集合中过滤出用户最有可能感兴趣的物品。其中粗排模型发挥的主要作用是统一计算和过滤召回结果,在尽量保证推荐准确性的前提下减轻精排模型的计算压力。本文主要介绍爱奇艺随刻基础推荐团队在短视频推荐业务的粗排模型优化上落地的一系列实践方案。
图一:推荐整体流程架构图
背景
工业界在做粗排模型选型时,性能通常是一个很重要的考量因素。按照工业界选型粗排模型的发展历程,大致可以将粗排模型分为以下几大类:
1. 最早也是最简单的粗排过滤方法,直接根据召回计算的得分做截断,控制输入给精排模型的物品候选数量,或者根据全局的ctr等统计指标做统一截断。
2. 以LR/决策树为代表的,结构比较简单又有一定个性化表达能力的机器学习模型,统一对召回候选集做打分截断。
3. 当前工业界应用最广泛的粗排模型—基于向量内积的双塔DNN模型,两侧分别输入用户特征和物品特征,经过深度网络计算后,分别产出用户向量和物品向量,再通过向量相似度等计算得到排序分数。
爱奇艺短视频推荐业务最初采用的粗排模型可以归为上述第二类选型模型,是一个基于各个纬度统计特征的GBDT模型。统计特征维度主要包括下面几个维度:
1. 不同属性的用户群体对不同类型视频(分标签、创作者和视频本身等)的消费统计特征。
2. 视频维度累积的消费统计特征,如视频的点击率、时长消费中位数和均值等;创作者up主的消费统计特征以及视频标签的消费统计特征等。
3. 用户历史消费的视频内容统计特征,如用户历史消费的类型标签统计、消费的创作者内容统计等。
在业务的精排模型优化升级为wide&deep模型后,我们对粗排模型和精排模型的预估结果做了详细的统计和分析,发现粗排模型预估为top的头部视频和精排模型预估的头部视频有很大的差异。归咎原因主要是以下两方面的原因:
1. 特征集合的差异:粗排GBDT模型中主要是一些稠密类统计特征,而精排wide&deep模型中发挥重要作用的特征主要是用户长短期消费的视频id、视频tag、up主id等以及视频本身的id、tag和up主id等稀疏类型特征。
2. 模型结构的差异:树型结构模型和DNN模型的优化和拟合数据时的侧重点还是有很大的差异的。
除了预估结果和精排wide&deep模型有比较大的差异性外,GBDT模型在特征处理和挖掘方面还需要投入大量的人力。综合以上分析,为了尽量弥补粗排模型和精排模型的Gap,缩小粗排模型和精排模型预估结果的差异性,并节省大量特征统计和挖掘的人力成