【论文阅读】Recommending What Video to Watch Next: A Multitask Ranking System

最新推荐文章于 2021-08-24 16:40:46 发布

Iris__HU

最新推荐文章于 2021-08-24 16:40:46 发布

阅读量242

点赞数

分类专栏：论文阅读深度学习

本文链接：https://blog.csdn.net/huxiyan450/article/details/116930645

版权

12 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

在输入特征是多模态的情况下（视频信息，缩略图信息，文字标题，用户特征，上下文特征等），且这些特征的纬度和稀疏度相差很大，如何有效抽取和综合这些特征。
对于一个项目来说，很有可能同时存在多个优化目标，这些目标不会完全一致，甚至会相互冲突。若为每一个目标训练一个模型，则所需数据量及计算量太大，不符合工程要求；若使用参数or模型共享的方法，因为有些objective相关性不大，甚至是相互冲突的，因此网络难以收敛。如何在使用轻量级网络的同时，有效学习多个目标，是一个挑战。
因为推荐系统大部分是基于隐含的用户反馈进行训练的，因此在这些用户反馈和用户的真实喜好之间存在gap。用户是否点击或浏览一件东西，不但是根据用户的喜好而定，也会受到推荐系统的影响。推荐的东西&排序高的东西，用户有更大的可能性去点击。而这些点击数据又会反过来强化推荐系统，形成feedback loop，长此以往，推荐系统的推荐会有越来越大的bias。如何在系统中识别并减少这些bias，是一个很重要的课题。

每个task根据objective的不同，着重学习一部分多模态输入特征，使得总体的学习难度下降。

在共享的嵌入层和隐藏层之上，构建n个并行的网络结构（专家网络），再为每个task构建一个门网络（输出为n维的权重向量），门网络负责决定每个专家网络对此task的决策力量（即：为n个专家网络生成权重向量）。
因此不同的task的预测值会由不同权重的专家网络的输出组成，即保证了一定程度的网路共享，也让不太相关甚至冲突的task能共用同一模型。
更新参数时，每个专家网络根据它对当前task的贡献程度，得到不同程度的更新。使得网络在多目标的场景下，也能收敛。
提供服务时，网络生成n个task各自的预测值。根据业务需求，综合这n个预测值（例如：更看重CTR得分，或更看重分享率等），即为最后的排名优先级。

用户的隐式反馈并不能完全反应用户的偏好，而是会受到推荐系统的影响：不太感兴趣的item被系统以高优先级推荐时，用户也有点击它的可能性。
因此，在使用隐式反馈数据进行模型训练时，如何模拟出这部分因素带来bias，并在后续推荐中排除它的影响，至关重要。
当前常用的方法有2个：

法1:把可能带来bias的特征，如推荐时的位置信息等，加入模型中一起训练，使模型考虑它对预测值的影响。
inference时，相关特征置0或统一置为固定值，排除这些特征给预测结果带来的影响。
法2: 使用与feedback loop相关特征来学习selection bias的大小，并把学到的selection bias加到主排序模型的bias中。

这两种方法都可以适应快速变化的输入特征分布，以end-to-end的模式和主排序模型一起训练使用。

关注

专栏目录