论文-多任务推荐中的跨任务知识提取

在这里插入图片描述

摘要

多任务学习(Multi-task learning,MTL)在推荐系统中得到了广泛的应用,其中预测用户对项目的各种类型的反馈(如点击、购买)被视为单独的任务,并使用统一的模型进行联合训练。我们主要的观察是每个任务的预测结果可能包含关于用户对项目的fine-grained(细粒度)偏好的task-specific knowledge(任务特定知识)。虽然这种知识可以转移到其他任务中,但在当前的MTL范式下,它被忽视了。相反,本文提出了一个跨任务知识提取框架,试图利用一个任务的预测结果作为指导信号来训练另一个任务。然而,由于任务冲突、大小不一致和同步优化的要求等挑战,以适当的方式集成MTL和KD并非易事。作为对策,我们1)引入具有quadruplet loss functions(四元组损失函数)的辅助任务,以捕获跨任务的细粒度排序信息并避免任务冲突;2)设计calibrated distillation approach(校准蒸馏法),以对齐和提取辅助任务中的知识;3)提出一种新的纠错机制,以支持和促进教师和学生模型的同步训练。在真实数据集上进行了综合实验,验证了该框架的有效性。

介绍

在线推荐系统通常涉及预测各种类型的用户反馈,比如点击和购买。多任务学习(MTL)(Caruana 1997)在这种背景下作为一种强大的工具出现,用于探索任务之间的联系,以改进用户兴趣建模(Ma et al. 2018b; Lu, Dong, and Smyth 2018; Wang et al. 2018)。

常见的MTL模型由低级共享网络和若干个高级个体网络组成,如图1(a)所示,希望共享网络通过共享或强制不同任务参数的相似性来传递“如何对输入特征进行编码”的知识(Ruder 2017)。大多数以前的研究(Ma等人,2018 a;Tang等人,2020 a;Ma et al. 2019)致力于设计具有分支和门控等ad-hoc参数共享机制的不同共享网络架构。在这些模型中,每个任务是在自己的真实二进制标签(1或0)的监督下训练的,试图把positive物品排在negative物品之上。然而,使用二进制标签作为训练信号,这个任务可能无法准确地捕获用户对于带有相同标签的物品的偏好,尽管学习关于这些物品的关系的辅助知识可能有益于总体排序性能。

为了解决这一局限性,我们观察到其他任务的预测可能包含关于如何对相同标签的物品进行排序的有用信息。例如,给定预测“购买”和“喜欢”的两个任务,和标记为“购买:0,喜欢:1”和“购买:0,喜欢:0”的两个物品,“购买”任务或许不能准确地区分它们的相对排名,因为它们的标签都是0。相反,另一个任务“喜欢”将以较大概率(例如0.7)将前一项识别为positive,以较小概率(例如0.1)将后一项识别为positive。基于用户更有可能购买她喜欢的物品的这个事实,我们可以以某种方式利用来自其他任务的这些预测作为传递排名知识的手段。

知识蒸馏(KD) (欣顿、Vinyals和Dean,2015)是一种师生学习框架,学生通过教师的预测进行训练。正如先前研究中的理论分析所揭示的那样(Tang等人,2020 b;Phuong and Lampert 2019),教师的预测,也被称为soft labels(软标签),通常被视为比二进制hard labels(硬标签)信息更多的训练信号,因为它们可以反映“样本是否是真positive(negative)”。从backward gradient(反向梯度)的角度来看,KD可以根据软标签的值自适应地重新缩放学生模型的training dynamics(训练力度)。特别地,在上面的例子中,我们可以将预测0.7和0.1合并到任务“购买”的训练信号中。因此,对于例子中的标记为“购买:0 & 喜欢:0”的样本的梯度将更大,表明它是更有把握的negative样本。通过这个过程,“购买”任务有望对相同标签的物品给予准确的排名。基于上述研究结果,我们利用KD在MTL模型的优化层面上设计了一个新的知识转移范式。由于三个关键和根本性的挑战,它并非微不足道:

  • 如何解决蒸馏(提取)过程中的任务冲突问题? 并非所有来自其他任务的知识都是有用的(Yu et al. 2020)。特别地,在在线推荐中,目标任务可能认为用户更喜物品A,因为她购买了物品A而不是物品B,而另一个任务可能相反地认为她更喜欢物品B,因为她将物品B放入收藏夹中而不是物品A。这种冲突的排序知识对于目标任务可能是有害的,并且根据经验可能导致显著的性能下降。
  • 如何调整不同任务的预测幅度? 与教师和学生模型具有相同预测目标的普通KD不同,不同的任务可能具有不同大小的positive比率。直接使用另一个任务的预测作为训练信号而不进行对齐可能会误导目标任务产生有偏倚的预测(Zhou et al. 2021)。
  • 当教师与学生同步优化,如何加强训练? 普通KD采用异步训练,教师模型已经事先被训练好了。然而,MTL本质上需要同步训练,其中每个任务都是从零开始联合学习的。这表明教师可能训练不足,提供不准确甚至错误的训练信号,导致缓慢收敛和局部最优(Wen、Lai和Qian 2019;Xu等人,2020年)。

在这里插入图片描述
在本文中,我们提出一个新的框架命名为Cross-Task知识蒸馏(CrossDistil)。不同于之前MTL模型,之前的MTL模型是通过共享底层的表征实现知识转移,CrossDistil是在顶层促进知识转移的排名,如图1所示©。解决上述挑战:首先,我们引入增强任务去学习四种样品的订单的排序知识,如图1所示(b)。新任务是基于一个四重损失函数训练的,可以通过只保留有用知识和丢弃有害知识,进而从根本上避免冲突。其次,我们考虑了一个校准过程,它被无缝地整合到KD程序中,以调整不同任务的预测,这是伴随着一个双层的训练算法分别优化参数预测和校正。第三,采用新颖的纠错机制对教师和学生进行端到端的训练,以加快模型训练速度和进一步提高知识质量。我们在大规模公共数据集和从我们的平台收集的真实世界生产数据集上进行了全面的实验。结果表明,CrossDistil达到了最先进的性能。消融研究还彻底剖析了其模块的有效性。

准备工作和相关工程(Preliminaries and Related Works)

Knowledge Distillation(知识蒸馏) (欣顿、Vinyals和Dean,2015)是一个师生学习框架,其中通过模仿教师模型的输出来训练学生模型。对于二元分类,蒸馏损失函数表示为
在这里插入图片描述
rT和rS表示教师和学生模型的对数, τ τ τ是温度超参数。最新进展(Tang等人,2020 b;Yuan et al. 2020)表明,KD执行特定实例标签平滑正则化,该正则化在对数空间中重新缩放backward gradient(反向梯度),因此可以向学生模型暗示地面真实的置信度,这解释了KD在传统模型压缩之外的更广泛应用中的功效(Kim et al. 2021;Yuan等人,2020年)。

推荐系统中现有的工作出于其原始目的而采用KD,即:将知识从繁琐的教师模型提取到针对相同任务的轻量级学生模型中(Tang和Wang,2018年;Xu等人,2020年;Zhu等人,2020年)。与他们或其他领域的KD工作不同,本文利用KD在不同的任务之间转移知识,由于前面提到的三个主要挑战,这是不平凡的。

多任务学习 (Zhang and Yang 2021)是一种机器学习框架,它通过共享底层网络学习任务不变表示,并通过任务特定网络生成对每个单独任务的预测。它已经收到越来越多的兴趣推荐系统(马等2018b;卢、董和史密斯2018;Wang等人,2018年;Pan et al. 2019)通过预测不同类型的用户反馈来建模用户兴趣。一系列的工作通过设计不同的共享网络架构来寻求改进,例如在任务特定参数上添加约束(Duong et al. 2015;Misra等人,2016年;Yang和Hospedales,2016年)以及分离共享参数和任务特定参数(Ma等人,2018a;Tang等人,2020a;Ma等人,2019年)。与他们不同的是,我们借助KD在特定任务网络(task-specific networks)上跨任务转换排序知识。值得注意的是,我们的模型是一个通用框架,可以作为现成MTL模型的扩展。

Proposed Model(提出的模型)

在这里插入图片描述
图2:CrossDistil的计算图图示。

Task Augmentation for Ranking(排序任务增强)

本文主要研究多任务学习预测不同的用户反馈(如点击、喜欢、购买、浏览),并考虑两个任务,记为任务A和任务B,以简化说明。如图2的左图所示,我们首先根据任务标签的组合将训练样本集分成多个子集:
在这里插入图片描述
其中 x x x是输入特征向量, y A y^A yA y B y^B yB分别表示任务A和任务B的硬标签。目标是将正样本排在负样本之前,这可以表示为二分次序,任务A的 x + ⋅ x_{+·} x+ x − ⋅ x_{−·} x和任务B的 x ⋅ + x_{·+} x+ x ⋅ − x_{·−} x,其中 x + ⋅ ∈ D + ⋅ x_{+·}∈ D^{+·} x+D+,依此类推。注意,这些二分顺序在不同任务之间可能是矛盾的, x + − x_{+-} x+− x − + x_{−+} x−+表示任务A, x + − x_{+-} x+− x − + x_{−+} x−+表示任务B。由于这种冲突的存在,通过将一个任务视为教师而将另一个任务视为学生来直接进行KD可能导致不一致的训练信号,并且在经验上对总体排序性能是有害的。

通过KD实现跨任务的知识传授,我们引入辅助的基于排序的任务,其可以基本上避免任务冲突,同时保留有用的排序知识。具体而言,我们考虑一个四元组( x + + , x + − , x − + , x − − x_{++}, x_{+-}, x_{-+}, x_{--} x++,x+−,x−+,x−−)和相应的分成多部分的顺序 x + + ≻ x + − ≻ x − + ≻ x − − x_{++} ≻ x_{+-} ≻ x_{-+} ≻ x_{--} x++x+−x−+x−−,对于任务A。与原始的二分顺序相反,多分顺序揭示了关于样本排序的附加信息,即 x + + x_{++} x++ x + − x_{+-} x+− x − + x_{-+} x−+ x − − x_{−-} x−−而不引入矛盾。因此,我们称这种细粒度排序(fine-grained ranking)。在此基础上,我们引入了一个新的基于排序的任务,称为增强任务A+,通过额外的最大化来增强知识转移
在这里插入图片描述
其中 r r r是在最后一层中激活前的logit值, r ^ + + ≻ + − = r ^ + + − r ^ + − \widehat{r}_{++≻+-}=\widehat{r}_{++}- \widehat{r}_{+-} r +++−=r ++r +−,并且sigmoid函数 σ ( x ) = 1 / ( 1 + e x p ( − x ) ) σ(x)= 1/(1+exp(-x)) σ(x)=1/(1+exp(x))。增强任务A+的损失函数是
在这里插入图片描述
它由三个项组成,分别对应于样本的三个成对排序关系,其中系数β1、β2平衡它们的重要性。增强任务B+的损失函数可以以类似的精神来定义。这些增强的基于排序的任务与原始的基于回归的任务在MTL框架中联合训练,如图2的第二个面板所示。原始的基于回归的损失函数表示为:
在这里插入图片描述
引入的基于排序的辅助任务可以避免任务冲突,并通过KD作为知识转移的前提条件。此外,任务增强方法本身通过引入更多相关任务(可能提供关于在共享层中应当学习和转移什么的提示),有利于主任务的通用性(Hsieh和Tseng 2021)。

Calibrated Knowledge Distillation(校准知识蒸馏)

接下来我们设计了一个跨任务的知识提取方法,可以为MTL传递细粒度的排序知识。由于另一个任务的预测结果可能包含关于相同标签的样本之间的看不见的排序的信息,因此直接的方法是使用另一个任务的软标签来通过如等式1中的普通的损失(即蒸馏损失)来教导当前任务。不幸的是,这种天真的做法可能会有问题,甚至在实践中产生负面影响。这是因为不同任务的标签可能具有矛盾的排序信息,这将损害如前所述的其他任务的学习。为了避免这样的冲突,我们将基于增强排序的任务视为教师,将基于原始回归的任务视为学生,并采用以下蒸馏损失函数:
在这里插入图片描述
在这里插入图片描述
因此学生不会误导老师。学生的损失函数公式为
在这里插入图片描述
其中 α A α^A αA ∈ [0,1]是平衡两个损失的超参数。基于增强排序的任务输出的软标签比硬标签具有更丰富的训练信息。例如,对于样本 x + + , x + − , x − + , x − − x_{++}, x_{+-}, x_{-+}, x_{--} x++,x+−,x−+,x−−,用于增强任务A+的教师模型可以给予预测0.9、0.8、0.2、0.1,其本质上包含在硬标签中没有显示的辅助排序顺序 x + + ≻ x + − x_{++} ≻ x_{+-} x++x+− x − + ≻ x − − x_{-+} ≻ x_{--} x−+x−−。这样的知识然后通过蒸馏损失被显式地转移,并且同时可以正则化特定任务层以防止硬标签过拟合。

然而,上述方法的问题在于,增强任务是利用成对损失函数来优化的,因此没有预测概率,即预测值 σ ( r ^ A + ) σ(\widehat{r}^{A+}) σ(r A+)与输入样本为正样本的实际概率不一致。直接使用教师的软标签可能会误导学生,导致性能下降。为了解决这个问题,我们提出校准预测,以便提供数字上可靠和无偏的软标签。Platt Scaling(普拉特缩放)是一种经典的概率校准方法。在本工作中我们采用它进行校准。然而,在实践中可以用任何其他更复杂的方法来代替它。形式上,为了获得校准概率,我们通过以下等式转换教师模型的logit值:
在这里插入图片描述
其中 r ~ \widetilde{r} r y ~ \widetilde{y} y 分别为校准后的logit值和概率。同样的过程也用于任务B+。P、Q是特定于每个任务的可学习参数。通过优化校准损失对它们进行训练
在这里插入图片描述
我们在优化 L C a l L^{Cal} LCal时固定MTL模型参数,如图2的第三个面板所示。注意,由于教师模型的校准输出是原始输出的线性投影,因此排序结果不受影响,从而在校准过程期间保留了软标签中潜在的细粒度排序知识。方程式(6)中的蒸馏损失然后通过将 r ^ A + \widehat{r}^{A+} r A+ r ^ B + \widehat{r}^{B+} r B+替换为 r ~ A + \widetilde{r}^{A+} r A+ r ~ B + \widetilde{r}^{B+} r B+进行修改。

在这里插入图片描述

模型训练

传统KD采用两阶段训练过程,其中教师模型预先训练,并且在训练学生模型时其参数是固定的(Hinton、Vinyals和Dean 2015)。然而,这种异步训练过程不利于诸如在线广告的工业应用。相反,由于简单和易于维护,以端到端方式训练教师和学生模型的同步训练过程更可取,如(Xu等人,2020;Anil等人,2018年;Zhou等人,2018年)。在我们的框架中,有两组优化参数,即MTL骨干中用于预测的参数(表示为 Θ Θ Θ)和用于校准的参数(包括 P A 、 P B 、 Q A 和 Q B P^A、P^B、Q^A和Q^B PAPBQAQB,表示为 Ω Ω )。为了联合优化预测参数和校准参数,我们提出了一种双层(bi-level)训练程序,其中 Θ Θ Θ Ω Ω 在每次迭代中依次优化,如训练算法所示。对于采样,如公式(4)所示枚举样本的每种组合是不切实际的。相反,我们采用了自助抽样(bootstrap sampling)策略(Rendle等人,2012年;Shan、Lin和Sun 2018)作为无偏的近似值。

纠错机制

在基于KD的方法中,根据教师模型的预测来训练学生模型,而不考虑它们是否准确。然而,与硬标签相矛盾的教师模型的不准确预测可能在两个方面损害学生模型的性能。首先,在训练的早期阶段,当教师模型没有得到很好的训练时,软标签中的频繁错误可能分散学生模型的训练过程,导致收敛缓慢(Xu et al. 2020)。其次,即使在训练后期,当教师模型得到相对良好的培训时,教师模型仍有可能偶尔提供错误的预测,这可能导致性能恶化(Wen、Lai和Qian 2019)。之前的工作(Xu等人,2020)采用了预热方案,在训练的前k步中消除蒸馏损失。然而,如何选择合适的超参数k并不清楚,并且它不能防止k步之后的错误。

在这项工作中,我们建议调整教师模型 y ~ \widetilde{y} y 的预测,使其与硬标签 y y y一致。具体而言,我们钳位教师模型的logit值(如果预测与地面事实不一致)如下:
在这里插入图片描述
,如果y = 1则返回1,否则返回-1,并且m是纠错容限(error correction margin),是一个超参数。该方法可以在训练初期消除不准确的预测,加快收敛速度,并在训练后期进一步提高知识质量,从而提高学生模型的性能。所提出的纠错机制具有以下特性:1)如果教师模型的预测足够正确(其以至少概率 σ ( m ) σ(m) σ(m)预测真实标签),则其不影响教师模型的预测;2)不影响教师模型的训练,因为蒸馏损失的计算对于教师没有反向梯度,如图2所示。

Experiments

我们在真实世界的数据集上进行实验,以回答以下研究问题:
RQ 1:与最先进的多任务学习框架相比,CrossDistil的表现如何;
RQ 2:CrossDistil中所提出的模块是否可有效改善性能;
RQ 3:纠错机制是否有助于加速收敛和提高知识质量;
RQ 4:学生模型是否真正受益于辅助排名知识;
RQ 5:超参数如何影响性能?

数据集。 我们在可公开访问的数据集TikTok和我们的WeChat数据集上进行实验。Tiktok数据集收集自短视频应用程序,包含两种类型的用户反馈,即“看完”和“喜欢”。WeChat数据集是在微信朋友圈平台上通过连续5天的用户日志采样收集的,用户反馈分为两类,“不感兴趣”和“点击”。对于Tiktok,我们随机选择80%的样本作为训练集,10%作为验证集,其余作为测试集。对于WeChat,我们按照天来拆分数据,用前四天的数据进行训练,最后一天的数据进行验证和测试。数据集的统计数据见表1。
在这里插入图片描述
评价指标 我们使用两个广泛采用的指标,即:AUC和Multi-AUC,用于评价。AUC表示二分排序(即, x + ≻ x − x_+ ≻ x_- x+x)模型的性能。
在这里插入图片描述
其中 p ( x ) p(x) p(x)是x为正样本的预测概率, I ( ⋅ ) I(·) I()是指示函数。普通的AUC测量二分排序的性能,其中数据点被标记为正样本或负样本。然而,我们也对多分排序性能感兴趣,因为样本有多个类,顺序为 x + + ≻ x + − ≻ x − + ≻ x − − x_{++} ≻ x_{+-} ≻ x_{-+} ≻ x_{--} x++x+−x−+x−−(对于任务A)。因此,根据(Shan、Lin和Sun 2018;Shan et al. 2017),我们采用多类ROC曲线下面积(Multi-AUC)来评价测试集上的多分排序性能。注意,我们使用考虑了类不平衡问题的加权版本(Hand和Till 2001),并且定义为:
在这里插入图片描述
其中,c是类别数,p()是流行加权函数(prevalence-weighting function),如(Ferri、Hernandez-Orallo和Modroiu 2009)所述,AUC(k,j)是AUC评分,其中类别k为阳性类别,j为阴性类别。

基准方法 我们选择以下具有不同共享网络架构的MTL模型进行比较:Shared-Bottom (Caruana 1997), Cross-Stitch (Misra et al. 2016), MMoE (Ma et al. 2018a), PLE (Tang et al. 2020a)。我们使用我们方法的两个变体:TAUG在MTL模型顶部加入了增强任务,CrossDistil通过进行校准知识蒸馏扩展了TAUG。尽管TAUG和CrossDistil都可以在大多数最先进的MTL模型上实现,但我们选择了最好的竞争者(即PLE)作为骨干。

RQ1:性能比较 表2和表3分别显示了我们的方法与其他竞争对手在WeChat和TikTok数据集上的实验结果。粗体值表示一列中的最佳值,而带下划线的值对应于所有基线中的最佳值。为了显示相对于单任务的改进,我们报告了使用单独的网络来学习每个任务的单模型的结果。如表中所示,在AUC和Multi-AUC方面,所提出的CrossDistil相对于单一模型实现了最佳性能改善。这些结果表明,CrossDistil确实可以更好地利用来自其他任务的知识来提高所有任务的二分和多分排序能力。另外,与骨干模型PLE相比,单独使用TAUG模型,无calibrated(标定)KD,可以获得更好的性能,验证了任务扩充的有效性。
在这里插入图片描述
此外,对比表中还有几个观察结果。首先,基于扩展排序任务(教师)的Single-Model与基于原始回归任务(学生)的Single-Model相比,在Multi-AUC中取得了更好的结果。实验结果表明,提出的增强任务能够捕获任务的细粒度排序信息。第二,在大多数情况下,学生模型在AUC和Multi-AUC性能方面都超过教师模型,这并不奇怪,因为学生受益于可以充当标签平滑正则化的附加训练信号,而教师不具有这种优势。在许多其他著作中也观察到了同样的现象(Yuan et al. 2020; Tang et al. 2020b; Zhang and Sabuncu 2020)。

RQ2:消融研究 我们设计了一系列消融研究来调查一些关键组件的有效性。考虑通过以下四种变体简化CrossDistil:
i)去除用于学习辅助排序关系的BPR损失;
ii)直接采用教师模型输出用于知识提炼,而不进行任何校准;
iii)不应用误差校正机制;
vi)使用学习与学生相同任务的基于回归的教师模型,并且使用类似于(Zhou等人,2018);
v)直接使用另一任务的预测进行蒸馏。
表4和表5显示了TikTok数据集上这些变体的结果以及与基线(即CrossDistil)相比的性能下降。
在这里插入图片描述
对于第一个变体,教师损失函数退化为传统的BPR损失,没有辅助的排名信息。这种包含跨任务知识的辅助排序信息是AUC和Multi-AUC算法取得良好性能的关键因素。
没有校准的第二变体可能产生不可靠的软标签并导致性能劣化。此外,值得一提的是,校准过程可以显著提高LogLoss的性能,LogLoss是一种广泛使用的基于回归的指标。具体地,通过使用校准,任务A的LogLoss从0.5832减小到0.5703,任务B的LogLoss从0.0623减小到0.0337。
第三变体的结果表明纠错机制也可以带来AUC和Multi-AUC的改进。误差校正的另一个好处是加速模型训练,这将进一步讨论。
对于第四个变体,我们可以看到,所提出的CrossDistil比普通KD更好,因为它跨任务传递细粒度的排序知识。
对于最后一个变体,直接进行KD可能会由于任务排序冲突而导致性能下降。
在这里插入图片描述
图3:在TikTok数据集上关于不同超参数的Task A和Task B的Mutil-AUC性能。

在这里插入图片描述
图4:带和不带纠错机制的CrossDistil在TikTok数据集上的学习曲线。

RQ3:纠错机制是否有助于加速收敛和提高知识质量? 为了回答这个问题,我们在图4中绘制了有(蓝线)和没有(红线)误差校正的测试损失学习曲线。正如我们所看到的,对于这两个任务,当教师没有经过良好训练时,在训练过程开始时,带纠错的CrossDistil的测试损失显著下降得更快。另外,在训练后期,教师经过良好的训练后,CrossDistil纠错后的测试损失缓慢下降,并取得了比变体更好的最优结果,表明所提出的纠错机制确实有助于提高知识质量。

RQ4:学生模型真的受益于来自其他任务的辅助排名知识吗? 为了回答这个问题,我们进行了以下实验:对于目标任务A,我们随机选取一定比例的任务B的正样本,然后用相同数量的随机选取的负样本交换其任务B的标签,以创建一个损坏的训练集。注意,这种数据破坏过程仅对辅助排名信息的可靠性具有负面影响,因此我们可以研究其对学生模型性能的影响。图5显示了将比率从10%增加到90%时的性能变化结果。实验结果表明,辅助信息缺陷对整体性能有较大的负面影响,再次验证了CrossDistil能够有效地进行任务间知识转移。
在这里插入图片描述
图5:损坏的辅助排名信息对TikTok数据集学生模型性能的影响。

RQ 5:超参数研究 本小节研究CrossDistil关于一些关键的超参数的性能变化。(即纠错容限m、辅助排序损失系数β1和β2、蒸馏损失权重α)。图3(a)显示了Multi-AUC性能,纠错容限范围为-4至4。正如我们所看到的,模型性能先增加后降低。这是因为极小的m等同于不进行纠错,而极大的m使得软标签劣化为硬标签。图3(b)和图3©中的结果表明,适当设置β有助于捕获正确的底层细粒度排序信息。图3(d)中的结果表明,适当的α从0到1可以带来最佳性能,这是合理的,因为蒸馏损失起到标签平滑正则化的作用,不能取代硬标签。

结论

本文提出了一种面向多任务推荐的跨任务知识提取框架。首先,设计基于增强排序的任务,获取细粒度排序知识,避免信息冲突,缓解负迁移问题,为后续知识提炼做准备。其次,采用标定知识提取技术将知识从增强任务(教师)转移到原始任务(学生)。第三,在同步训练过程中,提出了一种额外的误差修正方法,以加快收敛速度,提高知识质量。
CrossDistil可以被整合到大多数现成的多任务学习模型中,并且很容易被扩展或修改以用于在线广告等工业应用。CrossDistil的核心思想可以为解决特定领域的任务冲突问题以及在数据挖掘和机器学习等更广泛的领域促进知识转移提供一种新的范式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值