阿里妹导读:信息流短视频能够满足用户的碎片化阅读需求,目前已是移动互联网流量风暴的中心。各互联网大厂纷纷涉足此领域,推出自己的短视频产品,群雄争霸,逐鹿短视频市场。今天,UC事业部国际研发团队,将为大家介绍排序层的模型演进过程,带你深入了解模型创新部分。
作者:马泽锋、邢日良、彭卫华
背景
信息流短视频以算法分发为主,人工分发为辅,依赖算法实现视频的智能分发,达到千人千面的效果。整个分发流程分为:触发召回、排序与重排三个阶段。排序层在其中起着承上启下的作用,是非常重要的一个环节。在排序层优化的过程中,除了借鉴业界前沿的经验和做法,我们也做了模型上的一些创新。
信息流短视频排序目前使用是以CTR预估为目标的Wide&Deep模型。通过引入时长特征、点击+时长多目标优化等工作,我们取得了不错的收益:
增加视频平均播放时长特征,作为用户真实体感信号,带来用户消费时长提升;
通过消费时长样本加权,实现点击+时长多目标优化,实现点击率与消费时长的提升;
引入多个视频下发场景的样本数据,实现多场景样本融合;
在优化排序模型的过程中,我们也调研了DeepFM/DeepCN等深度模型,这些模型无论从离线还是线上指标上,都没有明显优势。在优化Wide&Deep模型的同时,更迫切的需求,是跳出原有的框架,寻找新的收益点。
引入GBM对submodel和高级特征等信号做集成学习,效果要优于单模型。从计算学习理论上看,Wide&Deep是high-variance模型,容易过拟合(wd模型的训练比评估指标高7%)。GBM通过boosting的方式组合集成多个submodel和高级特征,更好地发挥各自不同的作用和优势互补,同时从整体上有更好的可解释性。
上面是对信息流短视频排序模型演进的简要介绍;而其中的FM+GBM模型是我们团队比较有开创性的一项工作,下面稍微展开介绍。
模型
向量分解机(Factorization Machines, FM)是一种应用较为广泛的推荐模型,其发明者Steffen Rendle目前供职于Google。FM是对传统LR模型在处理高阶交互特征问题上的优化和改进:LR通过特征交叉的方式