LLM+emb-＞Rec论文：CTRL: Connect Collaborative and Language Model for CTR Prediction-CSDN博客

本文链接：https://blog.csdn.net/2301_79838167/article/details/146440501

论文的重点和创新点：

论文重点

CTR预测的重要性：点击率（CTR）预测对于推荐系统和在线广告至关重要，它能根据用户的历史行为数据预测用户点击商品的意愿，进而影响用户体验、产品销售和广告平台的收入。
现有方法的不足：传统的CTR预测模型将表格数据转换为一热向量，利用特征之间的协作关系来推断用户偏好，但这种方法会丢失原始特征中的语义信息，导致在冷启动或低频长尾特征场景下推荐性能不理想。而一些利用预训练语言模型（PLMs）提取语义信号的方法虽然取得了一定进展，但计算成本高、效率低，且未充分考虑协作关系。
CTRL框架的提出：为解决上述问题，论文提出了CTRL框架，将表格数据和转换后的文本数据视为不同模态，分别输入协作CTR模型和预训练语言模型，通过跨模态知识对齐精细地整合协作和语义信号，并在监督信号下微调后，仅部署轻量级协作模型以实现高效在线服务。

论文创新点

跨模态知识整合：创新性地将表格数据和文本数据作为不同模态进行处理，利用对比学习策略实现跨模态知识的精细对齐和整合，弥补了传统协作模型丢失语义信息的缺陷，同时避免了直接使用语言模型带来的高计算成本问题。
高效的在线推理：CTRL框架在微调后仅需部署轻量级的协作CTR模型，无需语言模型参与在线推理，确保了模型的高效性，满足了工业场景对低延迟的要求。
模型的通用性和兼容性：CTRL框架具有模型不可知性，能够适配任何协作模型和PLMs，包括大型语言模型（LLMs），并且在不同规模的语义模型和多种协作模型上均表现出良好的兼容性和性能提升。
工业级应用验证：不仅在三个公开数据集上取得了优异的实验结果，还在华为的大规模工业推荐系统中进行了部署和验证，证明了其在实际应用中的有效性和可行性，相比基线模型在CTR预测上取得了显著提升。

摘要

传统的点击率（CTR）预测模型将表格数据转换为一位热向量，并利用特征之间的协作关系来推断用户的偏好。这种建模范式会丢弃表格数据中特征之间的语义信息。尽管一些工作（如P5和CTR-BERT）已经探索了使用预训练语言模型（PLMs）来提取语义信号用于CTR预测，但它们计算成本高且效率低。此外，这些工作没有考虑协作关系，这会阻碍推荐性能的提升。为了解决这些问题，本文提出了一种新的框架CTRL，它具有工业友好性、模型不可知性，并且具有卓越的推理效率。具体来说，首先将原始表格数据转换为文本数据。将表格数据和转换后的文本数据视为两种不同的模态，分别输入到协作CTR模型和预训练语言模型中。执行跨模态知识对齐过程，精细地对齐和整合协作信号与语义信号，经过监督信号微调后，轻量级的协作模型可以部署到线上进行高效服务。在三个公开数据集上的实验结果表明，CTRL显著优于最先进的CTR模型。此外，我们还进一步验证了其在大规模工业推荐系统上的有效性。

1 引言

点击率（CTR）预测对于推荐系统和在线广告是一项至关重要的任务，它基于用户的历史行为数据来预测用户点击商品的意愿。预估的CTR值用于决定商品是否能够展示给用户。因此，精准的CTR预测服务对于提升用户体验、产品销量以及广告平台收入具有关键作用。对于CTR预测任务而言，历史数据以表格数据的形式呈现。在推荐模型的发展历程中，从早期的矩阵分解（MF），到浅层机器学习时代的逻辑回归（LR）和因子分解机（FM），再到深度神经网络模型，如DeepFM和DIN，协作信号一直是推荐建模的核心，其利用特征共现和标签信号来推断用户偏好。在将表格特征编码为一位热特征之后，特征的共现关系（即交互作用）通过人类设计的各种操作（如内积、外积、非线性层等）进行捕捉。通过明确或隐式地建模这些协作信号，可以推断用户与商品的相关性。

然而，基于协作的建模范式由于一位热特征编码过程，会丢弃原始特征中的语义信息。因此，对于冷启动场景或低频长尾特征，推荐性能并不理想，受到协作关系不足的限制。例如，当推断用户John对冷启动电影《世界大战III》的点击概率时，历史数据中协作信号的不足可能会阻碍准确推荐。最近，一些工作通过引入预训练语言模型（PLMs）来建模语义信号，以解决这一缺陷，例如P5、M6Rec、CTR-BERT、TALLRec和PALR。这些工作直接将原始文本特征输入语言模型用于推荐，而非使用一位热编码特征。一方面，PLMs中的语言和语义知识有助于提取原始文本特征中的语义信息。另一方面，大型语言模型（LLMs）中的外部世界知识（如电影《世界大战III》的导演、演员、剧情、评论等）以及知识推理能力，能够提供超出训练数据和场景的通用知识，从而为推荐系统开辟了一条新的技术路径。尽管取得了显著进展，但现有的语义基础解决方案仍存在若干不足：1）仅基于语义进行预测而缺乏传统的协作建模可能会导致次优效果，因为特征共现模式和用户-商品交互是个性化推荐不可或缺的指标，而PLMs尚未充分具备这些能力。2）语言模型的在线推理计算成本高昂，由于其复杂结构，为了满足低延迟约束，需要大量的计算资源和工程优化，这阻碍了其在大规模工业应用中的应用。因此，将PLMs纳入推荐系统以捕捉语义信号面临两大挑战：如何结合协作信号和语义信号以提升推荐性能？如何确保高效的在线推理而不涉及大量的工程优化？为了解决上述两大挑战，受近期对比学习工作的启发，我们提出了一个用于CTR预测的新型框架CTRL，它包含两个阶段：跨模态知识对齐阶段和监督微调阶段。具体而言，首先将原始表格数据通过人工设计的提示词转换为文本数据，这些提示词能够被语言模型理解。然后，将原始表格数据和生成的文本数据视为不同模态，分别输入到协作CTR模型和预训练语言模型中。我们执行跨模态知识对齐过程，精细地对齐和整合协作信号与语义信号。最后，在监督信号下对协作CTR模型进行微调。在在线推理阶段，仅推送轻量级的微调CTR模型进行服务，而不使用语言模型，从而确保高效的推理。我们的主要贡献总结如下：我们首次提出了一个能够对齐协作和语言模型信号的新型训练框架CTRL，将语义知识引入协作模型中。通过广泛的实验，我们证明了引入语义知识显著提升了协作模型在CTR任务上的性能。CTRL具有工业友好性、模型不可知性，能够适配任何协作模型和PLMs，包括LLMs，并且还保留了高推理效率，有助于其在工业场景中的应用。在三个来自现实世界工业场景的公开数据集上进行的实验中，CTRL取得了最先进（SOTA）的性能。此外，我们还进一步验证了其在大规模工业推荐系统上的有效性。
在这里插入图片描述

2 相关工作

2.1 用于推荐的协同模型

在推荐模型的发展过程中，从早期的矩阵分解（MF），到浅层机器学习时代的逻辑回归（LR）和因子分解机（FM），再到深度神经网络模型，如DeepFM和DIN，协同信号一直是推荐建模的核心。这些基于协同的模型将表格特征转换为一位热特征，并利用各种交互函数来提取特征共现关系（也称为特征交互）。不同的交互函数被提出以提高协同信号的建模能力。Wide&Deep利用非线性层提取隐式高阶交互。DeepFM通过内积捕捉两两交互，并采用堆叠和并行结构。DCN和EDCN部署交叉层来建模位级特征交互。尽管基于协同的模型取得了显著进展，但它们无法捕捉原始特征的语义信息，这在冷启动或低频长尾特征等场景下限制了预测效果。

2.2 用于推荐的语义模型

基于Transformer的语言模型，如BERT、GPT-3和T5，在自然语言处理（NLP）领域中作为基础架构出现。它们在各种NLP子领域（如文本分类、情感分析、智能对话和风格迁移）中的主导地位主要归功于其强大的知识推理和迁移能力。然而，由于推荐系统主要使用表格数据，而表格数据与文本数据是异构的，因此很难将语言模型直接应用于推荐任务。最近，出现了探索语言模型在推荐任务中的可行性的研究趋势。P5是一个为推荐定制的生成模型，将所有下游推荐任务转化为文本生成任务，并利用T5模型进行训练和预测。P-Tab引入了一种基于判别语言模型的推荐方法，将表格数据转换为提示词，通过掩码语言模型目标进行预训练，然后在下游任务上进行微调。同时，亚马逊的CTR-BERT采用了一种双塔结构，包含两个BERT模型，分别对用户和项目文本信息进行编码。更近来，有大量研究工作出现，利用大型语言模型（LLMs）进行推荐系统的研究。例如，百度的一项研究探讨了在搜索背景下使用LLMs进行重排序的可能性。同样，RecLLM解决了LLMs在推荐系统中应用的公平性问题。然而，尽管这些语义基础的推荐模型展示了在推荐系统中应用的可能性，但它们存在两个致命缺点：1）丢弃了协同建模中的经验积累，仅使用语义进行预测可能是次优的，并且在冷启动场景或低频长尾特征下会阻碍性能。2）由于语言模型的参数数量庞大，很难满足推荐系统对低延迟的要求，使得在线部署更具挑战性。相反，我们提出的CTRL通过结合协同和语义信号的两阶段训练范式克服了这两个缺点。

3 基础知识

在本节中，我们介绍了基于协作的深度CTR模型，并揭示了其在语义信息建模方面的不足。CTR预测是一项监督二分类任务，其数据集由若干实例 $(x, y)$ 组成。标签 $\in\{0,1\}$ 表示用户的真实点击行为。特征 $x$ 包含多字段信息，涵盖用户画像（如性别、职业）、项目特征（如类别、价格）以及上下文信息（如时间、地点）。基于这些实例，传统深度CTR模型利用协作信号来估计每个实例的概率 $P (y = 1∣ x)$ 。现有基于协作的CTR模型首先将表格特征编码为一位热特征，然后通过各种人为设计的操作来建模特征共现关系。具体来说，多字段表格特征通过字段级一位热编码转换为高维稀疏特征。例如，一个实例的特征（性别=女性，职业=医生，类型=科幻，…，城市=香港）可以表示为一位热向量：
x = [0, 1] （性别）
[0, 0, 1, . . . , 0] （职业）
[0, 1, 0, . . . , 0] （类型）
. . . [0, 0, 1, . . . , 0] （城市）
通常，深度CTR模型遵循“嵌入和特征交互”范式。通过嵌入层将高维稀疏的一位热向量映射到低维密集空间。对于第 $e_i$ 个特征，其对应的特征嵌入e𝐴?可通过 $e_i=E_i x_i$ 获得，其中 $E_i$ 是嵌入矩阵。接下来，提出特征交互层来捕捉显式或隐式的特征共现关系。人们在设计特定的交互函数方面做了大量工作，如乘积、交叉层、非线性层和注意力层。最后，通过输出层获得预测CTR分数 $\hat y$ ，并通过广泛使用的二元交叉熵（BCE）进行优化。正如我们所见，基于协作的CTR模型利用一位热编码将原始表格数据转换为一位热向量，如公式（1）所示，丢弃了特征字段和值之间的语义信息。通过这样做，特征语义丢失，唯一可用于预测的信号是特征共现关系，在冷启动或低频长尾特征等场景中，当这些关系较弱时，效果并不理想。因此，引入语言模型来捕捉原始特征中的语义信息有助于弥补信息差距并提高性能。

4 方法

如图3所示，我们提出的CTRL是一个两阶段的训练范式。第一阶段是跨模态知识对齐，将成对的表格数据和文本数据分别输入到协作模型和语言模型中，然后通过对比学习目标进行对齐。第二阶段是有监督的微调阶段，其中协作模型在有监督信号的下游任务上进行微调。

4.1 提示词构造

在这里插入图片描述

在介绍两阶段训练范式之前，我们首先介绍提示词构造过程。如图2所示，为了获得文本提示数据，我们设计了提示词模板，将表格数据转换为文本数据。如前所述，一个合适的提示词应包含足够的关于用户和项目的语义信息。例如，用户的个人资料（如年龄、身份、兴趣和行为）可以总结成一个句子。此外，项目的描述句可以通过颜色、质量和形状等特征来组织。为此，我们设计了以下模板来构造提示词：
“这是一个用户，性别是女性，年龄是18岁，职业是医生，最近观看了《泰坦尼克号》《阿凡达》。这是一部电影，片名是《终结者》，类型是科幻，导演是卡梅隆。”
在提示词中，第一句描述了用户侧特征，包括年龄、性别、职业和历史行为等。接下来的句子描述了项目侧特征，如片名、类型和导演等。在实际实现中，我们使用句号“。”分隔用户侧和项目侧描述，用逗号“，”分隔每个特征，用竖线“|”分隔每个用户的历史行为。我们还探索了不同提示词的效果，结果在第5.6.2节中呈现。
在这里插入图片描述

4.2 跨模态知识对齐

如前所述，现有的基于协作的推荐模型利用特征共现关系来推断用户的偏好，推动了推荐的发展。此外，预训练语言模型擅长捕捉推荐场景中的语义信号，具有语言和外部世界知识。为了结合协作模型和预训练语言模型的建模能力，并确保高效的在线推理，我们提出了一种基于对比学习的隐式信息整合方法，对齐协作和语义空间中的跨模态知识（即表格和文本信息）。

4.2.1 跨模态对比学习

跨模态对比学习过程如图3所示。首先，利用协作模型和语义模型（即预训练语言模型）对表格数据和文本数据进行编码，以获得相应的表示。具体来说，设 $M_{col}$ 为协作模型， $M_{sem}$ 为语义模型，对于实例 $x, x^{tab}$ 为表格形式， $x^{text}$ 为通过提示词构造过程获得的文本形式。协作和语义空间下的实例表示可以表示为 $M_{col}(x^{tab})$ 和 $M_{sem}(x^{text})$ 。为了将不等长的表示转换为同一维度，设计了一个线性投影层，转换后的实例表示如下：
$h^{tab} = M_{col} (x^{tab}) W^{tab} + b^{tab},$
$h^{text} = M_{sem} (x^{text}) W^{text} + b^{text},$
其中， $h^{tab}$ 和 $h^{text}$ 是实例 $x$ 在协作和语义空间下的转换表示， $W^{tab}$ 、 $W^{text}$ 和 $b^{tab}$ 、 $b^{text}$ 是线性投影层的变换矩阵和偏置向量。
然后，使用对比学习来对齐不同潜在空间下的实例表示，这在单模态和跨模态表示学习中都被证明是有效的。其背后的假设是，在距离度量下，相关的表示应该被约束为接近，反之则应远离。我们使用InfoNCE来对齐协作和语义空间下的两个表示。如图3所示，同一样本的两种不同模态（文本和表格）形成正对。相反，属于不同样本的两种不同模态数据形成负对。通过批量内采样获得负对。设 $h^{text}_k$ 和 $h^{tab}_k$ 是第 $i$ 个实例的两种模态表示，文本到表格的对比损失可以表示为：
$L^{tab2text} = −\frac{1}{N} \sum_{k=1}^N \log \frac{(\exp (sim(h^{text}_k, h^{tab}_k)/t )}{\sum_{j=1}^N \exp (sim(h^{tab},h^{text})/t)}$ ,
其中， $t$ 是温度系数， $N$ 是批量大小， $s im (\cdot,\cdot)$ 表示两个向量之间的相似度，通常使用余弦相似度。为了避免对协作模态的空间偏差，受Jensen-Shannon（J-S）散度的启发，我们还设计了一种表格到文本的对比损失，用于均匀地对齐到多模态空间，如下所示：
$L^{text2tab} = −\frac{1}{N} \sum_{k=1}^N \log \frac{(\exp (sim(h^{tab}_k, h^{text}_k)/t )}{\sum_{j=1}^N \exp (sim(h^{text},h^{tab})/t)}$ .
最后，跨模态对比学习损失L_cmcl定义为L_text2tab和L_tab2text的平均值，所有参数（包括协作模型 $M_{col}$ 和语义模型 $M_{sem}$ ）都参与训练：
$L_{ccl} = \frac{1}{2} (L^{text2tab} + L^{tab2text}).$

4.2.2 细粒度对齐

如上所述，CTRL利用跨模态对比学习来执行知识对齐，其中对齐质量由余弦相似度函数衡量。然而，这种方法仅建模全局相似度，忽略了两种模态 $h^{tab}$ 和 $h^{text}$ 之间的细粒度信息对齐。为了解决这个问题，CTRL采用了一种细粒度的跨模态对齐方法。具体来说，将协作表示 $h^{tab}$ 和语义表示 $h^{text}$ 分别转换为 $M$ 个子空间，以从不同方面提取信息知识。以协作表示 $h^{tab}$ 为例，第 $m$ 个子表示 $h^{text}_m$ 表示为：
$h^{tab}_m = W^{tab}_m h^{tab} + b^{tab}_m, m = 1, 2, . . . , M,$
其中， $W^{tab}_m$ 和 $b^{tab}_m$ 分别是第 $m$ 个子空间的变换矩阵和偏置向量。同样，语义表示的第 $m$ 个子表示表示为 $h^{text}_m$ 。然后，通过计算相似度得分来执行细粒度对齐，这表示为所有子表示上的最大相似度之和，如下所示：
$sim(h_i, h_j) = \sum_{m_i=1}^K \max_{m_j \in{1,2,...,M}} \{(h_{i,m_i})^T h_{j,m_j}\}$
通过在跨模态空间上建模细粒度相似度，CTRL允许在实例表示内进行更详细的对齐，以更好地整合知识。在这个阶段，语言模型和协作模型的参数都会更新，以更好地对齐表示。

4.3 有监督的微调

在跨模态知识对齐阶段之后，协作知识和语义知识在混合表示空间中对齐并聚合，其中特征之间的关系相互增强。在这个阶段，CTRL进一步在不同的下游任务（本文中的CTR预测任务）上有监督地微调协作模型。在协作模型的顶部，我们添加了一个具有随机初始化的额外线性层，作为最终预测ˆ𝑦的输出层。广泛使用的二元交叉熵（BCE）损失用于衡量预测得分ˆ𝑦与真实标签𝑦之间的分类准确性，定义如下：
$L_{ctr} = −\frac{1}{N} \sum_{i=1}^N (y_i log(\hat y_i) + (1 − y_i) log(1 − \hat y_i))$ ,
其中， $y_i$ 和 $\hat y_i$ 分别是第i个实例的真实标签和模型预测得分。经过有监督微调阶段后，只有轻量级的协作模型将部署到线上进行服务，从而确保高效的在线推理。

5 实验

5.1 实验设置

5.1.1 数据集和评估指标

在实验中，我们部署了三个大规模公开数据集，分别是 MovieLens、Amazon (Fashion) 和 Taobao，其统计信息如表 1 所示。按照之前的工作，我们采用 AUC 和 Logloss 两个流行指标来评估性能。正如许多研究所说，AUC 提升 0.001 或 Logloss 降低 0.001 都可以视为显著，因为它会带来在线收入的大幅增长。RelaImpr 指标衡量相对于基线模型的相对改进，定义如下：
$(\frac{\text{AUC}(\text{measure model})-0.5}{\text{AUC}(\text{base model})-0.5} -1) *100\%$
此外，我们还进行了双尾无配对 t 检验，以检测 CTRL 与最佳基线之间的显著差异。数据集和指标的详细描述可参考附录 A。

5.1.2 竞争模型

我们把 CTRL 与以下模型进行了对比，这些模型分为两类：1）协同模型：Wide&Deep、DeepFM、DCN、PNN、AutoInt、FiBiNet 和 xDeepFM；2）语义模型：P5、CTR-BERT 和 P-Tab。这些模型的详细描述可参考附录 A.2。

5.1.3 实现细节

在提示词构造过程中，仅使用了一种提示词类型，对比结果在第 5.6.2 节中呈现。在第一阶段，我们默认使用 AutoInt 作为协同模型，RoBERTa 作为语义模型，因为判别式语言模型在相同参数规模下比生成式模型（如 GPT）更高效。此外，我们也评估了像 ChatGLM 这样的大型语言模型 (LLM) 的性能，结果汇总于表 4。我们使用语义信息表示的最后隐藏状态的平均池化结果。对于投影层，我们将协同表示和语义表示压缩到 128 维。此外，跨模态知识对齐阶段的批量大小设为 6400，温度系数设为 0.7。我们使用 AdamW 优化器，初始学习率设为 (1 \times 10^{-5})，并伴有 warm-up 机制，逐渐增加到 (5 \times 10^{-4})。在第二阶段，下游微调任务的学习率设为 0.001，使用 Adam 优化器，批量大小设为 2048。我们还应用了批归一化和 dropout 以避免过拟合。所有模型的特征嵌入维度设为 32。对于所有协同模型，我们将隐藏层数量设为 3，隐藏单元数量设为 [256, 128, 64]。为了确保公平比较，我们为所有模型调整了其他超参数（如训练轮数），以获得最佳结果。

5.2 性能比较

在这里插入图片描述

我们把 CTRL 的整体性能与一些协同和语义模型进行了对比，结果汇总于表 2。从中我们得到以下观察结果：1）CTRL 在三个数据集上均显著优于所有协同和语义基线模型，表现出卓越的预测能力和结合协同与语义信号范式的有效性。2）与最佳协同模型相比，我们提出的 CTRL 在三个数据集上分别实现了 AUC 提升 1.90%、3.08% 和 4.45%，这有效证明了将语义知识引入协同模型有助于提升性能。我们认为这些显著改进归功于 PLMs 中的外部世界知识和知识推理能力。3）现有语义模型的性能低于协同模型，这表明协同信号和特征共现关系对于推荐系统至关重要，仅依赖语义建模难以超越现有的协同建模范式。相反，我们提出的 CTRL 通过结合协同信号与语义信号，整合了两者的优点，这可能是推荐系统未来发展的一条关键路径。

5.3 服务效率

在这里插入图片描述

在工业推荐系统中，线上模型服务有着严格的延迟限制，例如 10∼20 毫秒。因此，CTR 模型的高服务效率至关重要。在本节中，我们比较了不同 CTR 模型在 Alibaba 和 Amazon 数据集上的模型参数和推理时间，结果如表 3 所示。我们可以观察到，与语义模型相比，现有的协同 CTR 模型具有更少的模型参数和更高的推理效率。此外，协同模型的大多数参数集中在嵌入层，而隐藏网络的参数很少，这有利于线上服务。相反，语义模型（例如 P5 和 CTR-BERT）由于基于 Transformer 的复杂结构，具有更多的参数和更低的推理效率，阻碍了其工业应用。相反，对于以 AutoInt 为骨架模型的 CTRL，其模型参数和推理时间均与原始 AutoInt 模型相同，这得益于其解耦的训练框架（语义模型无需参与线上推理），并确保了高线上服务效率。

5.4 模态对齐可视化

在这里插入图片描述

为了深入研究跨模态知识对齐前后表格表示和文本表示在潜在空间中的分布，我们使用 t-SNE 将 MovieLens 数据集中的表示投影到二维空间进行可视化，结果如图 4 所示。两个不同颜色的点分别代表表格和文本表示。我们可以观察到，在跨模态知识对齐之前，两种模态的表示分布在两个独立的空间中，本质上是不相关的，而在对齐后，它们被映射到一个统一的多模态空间。这一现象证实了 CTRL 对齐了表格和文本两种模态的空间，从而将语义信息和外部通用知识注入到协同模型中。

5.5 兼容性研究

5.5.1 语义模型的兼容性

具体来说，对于语义模型，我们比较了四种不同规模的预训练语言模型：TinyBERT（1450 万参数，CTRLTinyBERT）、BERT-Base（1.1 亿参数，CTRLBERT）、RoBERTa（1.1 亿参数，CTRLRoBERTa）以及 BERT-Large（3.36 亿参数，CTRLLarge）。此外，我们还引入了一种新型的大型语言模型 ChatGLM（60 亿参数，CTRLChatGLM）。对于 CTRLChatGLM，在训练过程中，我们冻结了大部分参数，仅保留最后一层的参数。实验结果汇总于表 4，从中我们得到以下观察结果：1）与骨干模型 AutoInt 相比，使用不同预训练语言模型的 CTRL 一致且显著地提升了性能，其中 AUC 分别提升了 3.22% 和 3.63%，这证明了语义建模和模型兼容性的有效性。2）在四种 CTRL 变体（CTRLTinyBERT、CTRLBERT、CTRLRoBERTa、CTRLChatGLM）中，尽管 ChatGLM 的大量参数被冻结，CTRLChatGLM 仍实现了最佳性能。这一现象表明，扩大语言模型的规模可以为协同模型注入丰富的世界知识。此外，即使语言模型的参数规模提升至十亿级别，它仍能对协同模型产生积极影响。3）可以观察到，尽管 ChatGLM 的参数规模是 BERTLarge 的数倍，但其收益仅是温和的。因此，在进行模态对齐时，只需选择规模适中的语言模型，如 RoBERTa 即可。4）仅使用 TinyBert 可使 AUC 提升 0.005，表明我们可以通过使用轻量级预训练语言模型来加速模型训练。5）CTRLRoBERTa 在同等参数数量的情况下比 CTRLBERT 表现更佳。我们推测，这一改进是因为 RoBERTa 拥有更广泛的世界知识和更强大的语义建模能力，这间接突显了增加知识量对促进协同模型中知识对齐过程的优势。

5.5.2 协同模型的兼容性

在这里插入图片描述

此外，我们将 CTRL 应用于不同的协同模型，包括 Wide&Deep、DeepFM、DCN 和 AutoInt。从表 5 可以看出，CTRL 在不同的协同模型上均取得了显著的改进。在 RelaImpr 指标上，平均改进分别为 Wide&Deep 的 1.31%、DeepFM 的 1.13%、DCN 的 1.57% 和 AutoInt 的 2.61%，这证明了 CTRL 的有效性和模型兼容性。

5.6 消融实验

5.6.1 消融实验分析

在本节中，我们进行消融实验以更好地理解不同组件的重要性。1）我们将 maxsim 相似度替换为余弦相似度；2）我们移除了预训练语言模型的权重。3）我们研究了端到端训练的影响，即将两个阶段合并为一个阶段（即同时进行跨模态知识对齐和 CTR 预测任务的训练）。从图 5 中，我们观察到以下结果：1）当我们移除预训练语言模型的权重时，模型性能显著下降。这表明，协同模型性能提升的主要原因归功于语言模型的世界知识和语义建模能力，而不仅仅是对比学习。2）在将余弦相似度替换为 maxsim 相似度后，模型性能有所下降。这表明，细粒度对齐有助于协同模型学习语义表示。3）我们观察到端到端训练的性能不如 CTRL 的预训练和微调范式。我们推测这可能是由于端到端训练范式中的多目标设置，这可能会阻碍协同模型在 CTR 预测任务上的性能。

5.6.2 提示词分析

在这里插入图片描述

在本小节中，我们探讨了不同提示词构造方法对训练 CTRL 的影响。我们认为这一探索将为未来如何更好地构造提示词提供启发。以下是构造提示词的几条规则：1）将用户和项目的特征转换为易于理解的自然语言文本；2）移除辅助文本描述，直接用“-”连接特征字段和值；3）移除特征字段，将所有特征值转换为一个短语；4）用无意义的统一词“Field”屏蔽特征字段；5）将分隔符“-”替换为分隔符“:”。我们在这些提示词上预训练 CTRL，然后使用协同模型对 CTR 预测任务进行微调，结果如图 6 所示。从图 6 中，我们得到以下观察结果：1）提示词 1 的性能显著优于所有其他提示词，这表明以自然语言形式构造提示词有利于建模。2）提示词 3 的性能弱于提示词 2，这证实了特征字段语义信息的重要性，缺乏该信息会显著降低模型性能。同时，提示词 3 的性能弱于提示词 4，表明有规则的提示词比无规则的提示词更强。3）提示词 2 和提示词 5 的性能相似，表明特征字段和特征值之间的连接符差异对性能影响不大。基于这些发现，我们可以确定设计良好提示词的以下特征：1）包含诸如年龄、性别等特征字段；2）具有流畅且语法正确的句子，并包含尽可能多的语义信息。
在这里插入图片描述

6 工业系统中的应用

6.1 CTRL在线部署细节

在本节中，我们在华为大规模工业系统中部署了CTRL，以验证其有效性。在训练过程中，我们从华为大规模推荐平台收集并采样了七天的用户行为数据，该平台每天生成数百万条用户日志。我们使用了30多个不同的特征，包括用户画像特征（如部门）、用户行为特征（如用户点击的项目列表）、项目原始特征（如项目标题）以及统计特征（如项目的点击次数）和上下文特征（如时间）。在训练的第一阶段，我们仅训练了一个周期。在第二阶段，我们训练了五个周期。总共大约需要五个小时。这一相对较短的训练时间确保了我们能够每天更新模型。最后，我们在排名阶段部署了CTRL中的协作模型。
在这里插入图片描述

6.2 离线和在线性能

我们将CTRL模型（骨干模型为AutoInt和RoBERTa）与最先进（SOTA）模型进行了对比。离线性能结果如表6所示。显然，CTRL在AUC和Logloss指标上显著优于基线模型，从而证明了其卓越的性能。通过结合语义模型和协作模型的建模能力，CTRL在协作模型和语义模型上均取得了显著的性能提升。此外，根据表3的结果，CTRL与骨干协作模型相比，并未增加任何服务延迟，这是一种具有高准确性和低推理延迟的工业友好框架。在为期七天的在线A/B测试中，我们发现CTRL与基线模型相比，CTR提升了5%。如今，CTRL已经部署在在线服务中，为华为数千万用户服务。

7 结论

本文揭示了CTR预测中协同和语义信号的重要性，并提出了CTRL框架。该框架具有工业友好性和模型不可知性，且推理效率高。CTRL将表格数据和转换后的文本数据视为不同模态，利用对比学习实现细粒度知识对齐和整合。经过监督信号微调后，轻量级协作模型可部署上线，实现高效推理。实验表明，CTRL在保持良好推理效率的同时，性能优于现有协同和语义模型。未来工作将探索CTRL在其他下游任务（如序列推荐和可解释推荐）中的应用。