DMTL论文精读

superY25

已于 2022-03-14 00:36:35 修改

阅读量1.5k

点赞数 1

分类专栏：人工智能论文阅读笔记文章标签：推荐算法 DMTL 蒸馏

于 2022-03-13 17:07:43 首次发布

本文链接：https://blog.csdn.net/superY_26/article/details/123421615

版权

人工智能同时被 2 个专栏收录

68 篇文章 10 订阅

订阅专栏

论文阅读笔记

12 篇文章 0 订阅

订阅专栏

本文是对原文的翻译，弄懂原文每一句话的意思。
声明：鉴于本人英文一般，有翻译不对的地方望指正，谢谢！

题目

基于蒸馏的多任务学习：针对提高阅读时长的候选集生成模型

摘要

在feed推荐中，第一步是候选集的生成。大部分候选集生成模型都是基于CTR预估构建的，没有考虑用户点击之后的满意度。一些标题党item可能被推荐给用户，从而破坏用户体验。解决这个问题的一个方法就是同时给用户点击和用户阅读时长构建多任务学习模型。该方法有两个难点：第一是如何处理没有阅读时长的负样本，它们未必就是用户不喜欢的item。第二是如何在单任务的双塔模型上构建多任务的候选生成模型。本文提出基于蒸馏多任务学习模型（DMTL）解决以上两个难点。在多任务学习中，我们通过阅读时长和点击的依赖为阅读时长建模。然后通过蒸馏的方式从多任务学习模型中的teacher模块向student候选生成模块转移学到的知识。本文的数据来源于腾讯看点推荐系统的流量日志，实验表明本文提出的模型对建模阅读时长具有很好的效果，表明本文提出的候选生成模型具有不错的效果。
关键字：多任务学习，知识蒸馏，候选集生成，阅读时长建模，推荐系统

1. 引言

     CTR预估被广泛应用于推荐系统的排序中。近年来，很多基于深度学习的模型用来预测CTR[1,3,7]，关于feed推荐，CTR预测（pCTR）可以反映有多大可能点击，但并不能反映用户点击和阅读之后对item内容的喜欢。例如：标题党，常常具有较高的点击率，但用户并不喜欢。因此，仅仅对CTR建模不能确保用户对点击的item的满意。为了提高用户体验，阅读时长同样需要被建模，并且对工业级的feed推荐非常重要。本文，我们关注阅读时长建模以及它在feed推荐中大规模候选集生成的应用。在我们的实际应用中有两个挑战：第一挑战是如何处理没有阅读时长的负样本，这些负样本没有阅读时长仅仅是因为它们没有被点击，并不意味用户不喜欢这些item，它不同于只有很短阅读时长的正样本，很短阅读时长意味着用户不喜欢。直接使用0阅读时长作为目标建模可能导致预测结果不精确。第二个挑战是由第一个引起的，为了解决第一个挑战的问题，多任务学习被应用。然而，在候选集生成模型中做多任务学习是非常困难的。正如我们所知，大部分深度候选集生成模型都采用了双塔结构[2,4]。该结构有一个user塔和一个item塔，分别用来计算user向量和item向量，并且使用user向量和item向量的内积作为人工神经网络（ANN）搜索的相似度来生成候选集，是非常有效的方法。由于内积只能构建单任务模型，因此直接在候选集生成模型做多任务学习是困难的。据我们所知，几乎没有文章讨论阅读时长建模。在实际应用中，在单任务中阅读时长建模的常规方法是回归，所有负样本的阅读时长置为零，并且使用均方误差损失。正如前面所提到的，将负样本的阅读时长置为零，可能将不喜欢的item（很短阅读时长的item）和未点击的item（零阅读时长，但不一定不喜欢的item）混为一谈，从而误导模型的训练。
     为了解决以上两个挑战，我们提出了基于多任务学习的蒸馏模型，我们称之为DMTL，为候选集生成模型建模阅读时长。我们通过考虑阅读时长对点击的依赖同时为点击任务和阅读时长任务建模CTR和CTCVR来克服现存阅读时长建模的一些问题。然后，我们使用蒸馏技术转移从多任务模型学到的知识到双塔结构的候选集生成模型，使得候选集生成模型具有阅读时长建模的同时保持较高的效率。
     为了评估所提出方法的性能，我们利用腾讯看点推荐系统的流量日志数据进行实验。离线和在线实验表明本文提出的方法优于对比模型，这表明所提出的阅读时长建模方法是有效的。

2. 本文方法

2.1 阅读时长建模的多任务学习
     候选集生成模型的目标就是从包含百万甚至上亿的item语料库中选出上百或者上千个用户相对喜欢的item。在本文中，所提出的方法（DMTL）通过同时为CTR和阅读时长建模提高了候选集生成的质量，相比只为CTR建模的方法。对于CTR任务，正样本是被点击过的item，负样本是从所有的item中根据被点击的频次随机抽取的item。这点和使用被点击的item作为正样本，未被点击的item作为负样本的排序模型不同。对于阅读时长任务，正样本为被点击的且用户阅读时长大于50s（或者所有阅读时长的中位数）的样本，剩余的item作为负样本。使用 $u_i$ 和 $v_i$ 分别表示user特征和item特征。它们通常由多个类别特征连接而成， $x_i$ 是 $u_i、v_i$ 和其他稠密特征向量连接。使用 $y_i$ 表示点击任务的标签， $y_i=1$ 表示被点击的正样本， $y_i=0$ 表示其他被随机选择的负样本。使用 $z_i$ 表示阅读时长任务的标签， $z_i=1$ 表示阅读时长大于50s的正样本， $z_i=0$ 表示其他的负样本。阅读时长建模公式化为：给定 $x_i，z_i=1$ 的概率（即 $p(z_i=1|x_i)$ ）。正如之前提到的， $z_i$ 依赖于 $y_i$ ，因为 $y_i=0$ 会导致 $z_i=0$ 。为了更好的建模，我们使用更好的点击和阅读时长依赖，具体地： $p(z_i=1| x_i)=p(y_i=1| x_i)p(z_i=1| y_i=1,x_i) \space\space\space\space\space\space\space (1)$ 其中 $p(y_i=1|x_i)$ 表示CTR（点击率）预测， $p(z_i=1| y_i=1,x_i)$ 表示CVR（转化率）预测（pCVR）， $p(z_i=1| x_i)$ 表示CTCVR点击转化率预测。阅读时长建模时，为了减少样本选择偏差和数据稀疏的影响，我们采用了ESMM[6]的方法，在多任务学习框架中同时适应(fit)CTR预测和CTCVR预测。我们的模型中，通过最小化二分类交叉熵来适应(fit)点击任务和阅读时长任务。
     我们使用多任务学习框架MMoE[5,8]建模CTR和CVR。 $f_k$ 表示第 $k$ 个专家网络，通常是一个DNN，并且 $f_k(x_i)$ 表示第 $k$ 个专家网络的输出向量。对于CTR建模，定义门控计算 $g_c(x)=[g_{c1}(x_i),g_{c2}(x_i),...,g_{cK}(x_i)]$ ，其中 $g_c(·)$ 表示门控函数 $g_c(x)=softmax(W_cx_i)$ ， $W_c$ 表示可训练的矩阵， $K$ 表示专家系统的数量， $g_{ck}(x_i)$ 表示 $g_c(x_i)$ 中第 $k$ 个元素。CTR建模的专家网络输出定义为： $e_c(x_i)=\sum_{k=1}^{K}g_{ck}(x_i)f_k(x_i)\space\space\space\space\space\space\space(2)$ 对于CVR建模，带有可训练的参数矩阵 $W_d$ 的门控函数 $g_d(·)$ 和CTR任务的一样，建模CVR的专家网络输出为： $e_d(x_i)=\sum_{k=1}^Kg_{dk}(x_i)f_k(x_i)\space\space\space\space\space\space\space(3)$ 其中 $g_{dk}$ 是 $g_{d}(x_i)$ 的第k个元素。对于样本 $x_i$ ，pCTR和pCVR的建模为： $p_{ctr}(x_i,\theta_t)=sigmoid(h_c(e_c(x_i)))\space\space\space\space\space\space\space(4)$ $p_{cvr}(x_i,\theta_t)=sigmoid(h_d(e_d(x_i)))\space\space\space\space\space\space\space(5)$ 其中 $h_c(·)、h_d(·)$ 是将 $e_c(x_i)和e_d(x_i)$ 分别映射到pCTR和pCVR的DNNs， $\theta_t$ 是模型中所有可训练的参数。根据公式1、4、5，pCTCVR可以写成： $p_{ctcvr}=p_{ctr}(x_i,\theta_t)p_{cvr}(x_i,\theta_t)\space\space\space\space\space\space\space(6)$ 由于阅读时长建模是适应(fit) CTCVR，阅读时长建模任务损失函数为二分类交叉熵： $L_d(\theta_t)=-\sum_{i=1}^{N}z_ilogp_{ctcvr}(x_i,\theta_t)+(1-z_i)log(1-p_{ctcvr}(x_i,\theta_t))\space\space\space\space\space\space\space(7)$ 公式6和7通过引入 $p_{ctr}(x_i,\theta_t)$ 构建点击和阅读时长的依赖，并计算 $p_{ctcvr}(x_i,\theta_t)$ .然而，仅仅用 $p_{ctcvr}(x_i,\theta_t)$ 适应(fit)CTCVR并不能确保 $p_{ctr}(x_i,\theta_t)$ 适应(fit)CTR。因此，我们需要辅助任务来确保 $p_{ctr}(x_i,\theta_t)$ 适应(fit)CTR。这个辅助的点击任务就是： $L_c(\theta_t)=-\sum_{i=1}^{N}z_ilogp_{ctr}(x_i,\theta_t)+(1-z_i)log(1-p_{ctr}(x_i,\theta_t))\space\space\space\space\space\space\space(8)$ 通过结合公式7和8，我们得到阅读时长建模的多任务学习损失函数： $L_{teacher}(\theta_t)=w_1L_d(\theta_t)+w_2L_c(\theta_t)\space\space\space\space\space\space\space(9)$ 其中 $w_1,w_2$ 分别是每个损失函数的权重。
2.2 候选集生成模型的蒸馏
     在大部分基于深度学习的候选集生成模型中，双塔架构被应用于计算user向量和item向量，其中item向量被用来构建item索引。对于给定user向量，在item索引的ANN搜索常使用user-item向量的内积作为相似度，然后取前k个item作为候选集。然而，这些候选集生成模型不能通过多任务学习建模阅读时长，因为内积只能建模一个任务。为了使候选集生成模型依赖它高效的双塔架构获取额外的建模阅读时长的能力，我们使用蒸馏技术，通过在章节2.1所提到的MTL模型转移学到的知识构建候选集生成模型。
     本文提出的候选集生成模型使用双塔模型，并且使用DNNs计算user向量和item向量。分别用 $R(u_i)$ 和 $S(v_i)$ 表示user向量和item向量，其中 $R (\cdot)$ 和 $S (\cdot)$ 表示从输入层到输出层的DNNs模型映射。关于 $R(u_i)$ 和 $S(v_i)$ ，通过候选集生成模型的CTCVR预测可以被定义为： $p(z_i=1|R(u_i),S(v_i),\theta_s)=sigmoid(R(u_i)^TS(v_i))\space\space\space\space\space\space\space(10)$ 其中 $R(u_i)^TS(v_i)$ 表示 $R(u_i)$ 和 $S(v_i)$ 的内积。在 $R(u_i)$ 和 $S(v_i)$ 中， $\theta_s$ 是可训练的参数。我们希望 $p(z_i=1|R(u_i),S(v_i),\theta_s)$ 和 $p_{ctcvr}(x_i,\theta_t)$ 尽可能相似。因此，我们可以在保持候选集生成模型高效的同时使用公式10精确地评估阅读时长的CTCVR。为此，我们将多任务学习模型（公式9）作为老师（teacher）模型，将双塔架构的候选集生成模型（公式10）作为学生（student）模型，并且使用蒸馏技术将学到的知识从老师模型转移到学生模型。蒸馏技术的损失函数可以使用如下的KL散度： $L_{student}(\theta_s)=p_{ctcvr}(x_i,\theta_t)\frac{p_{ctcvr}(x_i,\theta_t)}{p(z_i=1|R(u_i),S(v_i),\theta_s)}+(1-p_{ctcvr}(x_i,\theta_t))\frac{1-p_{ctcvr}(x_i,\theta_t)}{1-p(z_i=1|R(u_i),S(v_i),\theta_s)}\space\space\space\space\space\space\space(11)$ 通过结合学生模型的损失和老师模型损失，我们可以得到基于蒸馏的多任务学习模型： $L(\theta_t,\theta_s)=L_{teacher}(\theta_t)+L_{student}(\theta_s))\space\space\space\space\space\space\space(12)$ 在训练的过程中为了避免老师模型受到学生模型的影响，学生模型的参数和老师模型的参数被分开，当计算 $L_{student}(\theta_s)$ 时老师模型的pCTCVR被冻结。因此，最小化损失函数（公式12）等价于最小老师模型的损失或者最小化学生模型的损失。在推断阶段，我们仅仅使用学生模型计算user向量和item向量，并且利用item向量建立索引，用户向量作为查询，ANN搜索执行为用户从索引中获取前k个候选items。我们的网络架构和训练或服务框架如图所示。在这里插入图片描述

实验

3.1 离线实验
      3.1.1 数据集。实验数据集收集于腾讯看点推荐系统的流量日志数据，数据集有上亿个训练样本和上亿个测试样本。对于每个用户，正样本为被点击的item，负样本是从所有的item中根据被点击的频次随机抽取的item。每一个被点击的样本都有一个大于零的阅读时长，每一个随机选择的item都有定于零的阅读时长。
      3.1.2 对比模型。我们将提出的模型DMTL和现存的候选集生成模型进行对比实验。对比模型如下：
            1.DSSM-Regression：user向量和item向量通过DNNs计算，它们的内积通过均方损失回归阅读时长，训练时负样本的阅读时长为零。
            2. DSSM-Classification：user向量和item向量通过DNNs计算，它们的内积用来计算二分类交叉熵训练分类模型，其中正样本为被点击阅读时长大于50s的样本，其他的样本为负样本。
            3. DSSM-Click：user向量和item向量通过DNNs计算，它们的内积用来计算二分类交叉熵训练分类模型，其中正样本为被点击的样本，其他的样本为负样本。
      3.1.3 评价指标。我们对比所有的方法通过评估它们在二分类（正样本为被点击阅读时长大于50s的样本，其他的样本为负样本）任务的性能。AUC指标被用来作为评估性能的指标。AUC值越高表示建模阅读时长能力越好。
      3.1.4 参数设置。对于老师模型，专家模型是一个隐藏层大小为 $1024 \times 512 \times 256$ 的DNNs。总共有2个专家网络。对于每个任务的DNN是 $256\times256$ 。对于学生模型，每个塔的隐藏层大小是 $512\times256\times128$ 。对于这两个模型，类别变量的向量大小是30。
      3.1.5 结果和分析。表1展示了每个候选集生成模型的性能。所有模型中回归模型的效果最差，可能是因为它直接训练大量的阅读时长为零的样本，分类模型效果比回归模型好一点点，但效果也差于本文提出的DMTL模型。这是由于建模时缺少点击和阅读时长之间的依赖，从而导致混淆了未点击和阅读时长很短的样本。对比建模阅读时长的DSSM，DSSM-Click模型效果好很多，表明点击对阅读时长的重要性。随着阅读时长依赖点击的出现，不考虑点击的依赖建模阅读时长，在训练的时候，可能会丢失很多重要信息。在所有的模型中，本文提出的DMTL获得了最好效果，这个提高归功于来自老师模型考虑点击的依赖，从而合理的建模阅读时长的知识蒸馏。
在这里插入图片描述 3.2 在线实验
      在线A/B测试被用来执行DMTL和对比模型的对比实验，对于在线实验，我们仅仅使用不同的候选集生成模型改变候选集生成这一部分，然后保持其他部分不变。在线评估指标是平均阅读时长，定义为： $T / M$ ，其中T表示总的阅读时长，M表示总的item数。表2展示了不同模型的在线实验结果。DSSM-Regression和DSSM-Classification效果比DSSM-click和DMTL差，这和离线模型的结果保持一致。不进行点击建模而直接建模阅读时长坑你导致不精确的评估，从而使得返回的候选集和用户的兴趣不太相关。本文提出的DMTL模型克服了这个问题，并且和对比模型相比取得了最好的结果。
在这里插入图片描述

总结与展望

本文中，我们提出了基于蒸馏的多任务学习模型在候选集生成阶段建模阅读时长。老师模型是一个多任务学习模型，考虑点击和阅读的依赖使用ESMM建模阅读时长。学生模型是一个基于双塔结构的候选生成模型DSSM。知识蒸馏技术让DSSM模型在保持高效地生成候选集时获得建模阅读时长的能力。通过实际真实的数据集做离线和在线实验，结果表示本文提出的模型阅读时长建模效果最好。本文提出的方法在其他具有多任务依赖的场景可以简单地被实现。在未来，我们将研究在其他仅有部分任务相关的场景中建立多任务学习模型，以及如何融合输出分数进行蒸馏。

参考文献

[1] Heng-TzeCheng,LeventKoc,JeremiahHarmsen,TalShaked,TusharChandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, et al. 2016. Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems. 7–10.
[2] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for youtube recommendations. In Proceedings of the 10th ACM conference on recom- mender systems. 191–198.
[3] Huifeng Guo, Ruiming Tang, Yunming Ye, Zhenguo Li, and Xiuqiang He. 2017. DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247 (2017).
[4] Po-SenHuang,XiaodongHe,JianfengGao,LiDeng,AlexAcero,andLarryHeck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2333–2338.
[5] JiaqiMa,ZheZhao,XinyangYi,JilinChen,LichanHong,andEdHChi.2018.Mod- eling task relationships in multi-task learning with multi-gate mixture-of-experts. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.
[6] Xiao Ma, Liqin Zhao, Guan Huang, Zhi Wang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.
[7] Ruoxi Wang, Rakesh Shivanna, Derek Z Cheng, Sagar Jain, Dong Lin, Lichan Hong, and Ed H Chi. 2020. DCN-M: Improved Deep & Cross Network for Feature Cross Learning in Web-scale Learning to Rank Systems. arXiv preprint arXiv:2008.13535 (2020).
[8] Zhe Zhao, Lichan Hong, Li Wei, Jilin Chen, Aniruddh Nath, Shawn Andrews, Aditee Kumthekar, Maheswaran Sathiamoorthy, Xinyang Yi, and Ed Chi. 2019. Recommending what video to watch next: a multitask ranking system. In Proceed- ings of the 13th ACM Conference on Recommender Systems. 43–51.
[9] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1059–1068.

个人总结

如图是模型框架图中每个模块设计在文中对应的模型定义。
在这里插入图片描述
DMTL模型主要是通过考虑了阅读时长和点击的依赖为阅读时长进行建模（文中的公式6）。然后通过多任务学习得到teacher模型（ $L_{teacher}(\theta_t)$ ）。使用蒸馏技术将teacher模型学习到的知识转移到student模型，如图中右边的DSSM模型，该模型是一个双塔模型，分别计算user和item，利用KL散度结合转移的知识和DSSM模型输出的结果，得到 $L_{student}(\theta_s)$ 。最后在根据公式12得到本文提出模型DMTL的loss： $L(\theta_t,\theta_s)$ 。

superY25

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DMTL论文精读

本文是对原文的翻译，弄懂原文每一句话的意思。声明：鉴于本人英文一般，有翻译不对的地方望指正，谢谢！如图是模型框架图中每个模块设计在文中对应的模型定义。题目基于蒸馏的多任务学习：针对提高阅读时长的候选集生成模型摘要在feed推荐中，第一步是候选集的生成。大部分候选集生成模型都是基于CTR预估构建的，没有考虑用户点击之后的满意度。一些标题党item可能被推荐给用户，从而破坏用户体验。解决这个问题的一个方法就是同时给用户点击和用户阅读时长构建多任务学习模型。该方法有两个难点：第一是如何处理没有阅读时
复制链接

扫一扫

专栏目录