ICML 2024 | 腾讯提出全新多嵌入范式：维度坍塌视角下的大规模推荐系统-CSDN博客

©作者 | 腾讯广告技术

在推荐系统中，模型的参数量被特征嵌入 (Embedding) 表征主导。所以，要将整个推荐模型做大，需要增加特征嵌入表征的参数量。我们发现，业界主流的显式特征交叉结构会使特征嵌入表征产生维度坍塌，导致无法通过简单地拉长嵌入表征来提升模型效果。

针对该挑战，我们提出了一种多嵌入 (Multi-Embedding) 范式，为每个特征学习多个嵌入表征，并且基于每套嵌入表征学习独立的显式交叉专家网络。通过增加每个特征嵌入表征的个数而不是拉长单个嵌入表征的长度，我们在特征交叉推荐模型达成了 Scaling Law：整个推荐模型的参数量越大，效果越好。该框架适用于所有的主流推荐模型结构，包括 DCN V2, NFwFM, IPNN, xDeepFM 和 DNN 等。

该项工作已经被机器学习顶级会议 ICML 2024 录用，欢迎阅读交流。

论文标题：

On the Embedding Collapse When Scaling Up Recommendation Models

论文链接：

https://arxiv.org/pdf/2310.04400

代码链接：

https://github.com/thuml/Multi-Embedding

研究问题：推荐模型的可扩展性

随着大数据时代的到来，推荐系统在广告、电商、社交媒体、新闻推送和音乐流媒体等领域发挥着越来越重要的作用。深度学习驱动的推荐模型通过挖掘用户和物品之间的复杂关系，为用户带来个性化的推荐体验。然而，尽管通用大模型的参数规模不断扩大，主流推荐模型的规模却停滞不前，这限制了推荐系统效果的进一步提升。接下来，我们将从“嵌入维度坍塌”的视角来解释该现象。

1.1 嵌入维度坍塌现象

嵌入维度坍塌 (Dimensional Collapse) 指的是，在一个高维空间中，推荐模型的很多特征的嵌入表征只支撑起一个低维的子空间。这会导致模型无法充分利用高维空间提供的超大参数容量，从而限制了模型的可扩展性。所以在做推荐大模型时，如果我们简单地将每个特征的嵌入表征的长度拉长，虽然模型的参数量会线性增大，但是由于大部分特征的有效维度很小，导致模型效果提升幅度不大，甚至有所下降（如左下图所示）。

为了验证维度坍塌的存在，我们基于奇异值分解对模型学习到的嵌入矩阵进行谱分析 (Singular Spectrual Analysis)，并发现大多数嵌入矩阵的奇异值衰减很快（如右下图所示），即大多数特征的嵌入矩阵是低秩的。

▲ 图1：单嵌入模型的扩展效果(左)以及其在不同的嵌入维度(4倍、10倍)下的维度坍塌情况(右)。

1.2 交叉坍塌定律

我们接下来深入分析了维度坍塌的原因。首先，我们提出了“信息丰度 (Information Abundance, IA)”指标来衡量某个特征 embedding 的坍塌程度。具体地，IA 定义为表征矩阵的奇异值总和除以奇异值最大值。该指标衡量了奇异值的分布均匀性：该值越大，说明奇异值分布越均匀，维度坍塌程度越小。相反，则说明奇异值分布不均匀，很多维度发生了严重的坍塌。

▲ 图2：DCN V2中每个特征域变换后的嵌入的维度坍塌情况

不失一般性地，我们以 DCN V2 为例进行维度坍塌的分析。DCNv2 的每个特征都有多个不同的变换嵌入表征 (projected embedding)，其中每个嵌入表征对应一个特征域 (Field)。

具体地，我们分析了 DCN V2 模型下，某个特征域i的特征嵌入在与特征域j交互时的变换嵌入表征的信息丰度值（上图(a)）；以及给定特征域 i（或 j）后，所有由特征域i变换出的嵌入表征以及所有变换到特征域j的嵌入表征的信息丰度均值。

我们可以清楚地看到，变换嵌入表征的信息丰度不仅取决于源特征域 i（上图(b)），还明显地受到其与之进行交叉的目标特征域 j 的影响（上图(c)）。基于这些观察，我们提出了“交叉坍塌定律”，亦即，在推荐系统的特征交叉中，信息丰度低的特征与信息丰度高的特征交叉后，会导致后者的嵌入表征发生维度坍塌。针对该交叉坍塌定律，我们也提供了理论证明，细节请阅读原论文第 4 章节。

1.3 如何缓解坍塌

▲ 图3：变换矩阵做正则后的维度坍塌情况(a)和模型效果(b, c)

上面章节已经论证了显式的特征交叉会导致 embedding 发生维度坍塌。我们接下来讨论几种缓解维度坍塌的尝试。首先，我们发现在 DCN V2 中每个特征域的 embedding 在变换后发生了维度坍塌。

我们试图去对变换矩阵做一些限制，使其接近单位矩阵，以避免变换矩阵导致的维度坍塌。具体地，我们在模型的损失函数中增加了一个正则损失，使得变换矩阵近似于单位矩阵。但是，我们发现，虽然所有特征 embedding 的维度坍塌得到了很大程度的缓解（图 3(a)），但是模型发生了严重的过拟合，亦即训练时的损失函数大幅降低（图 3(c)），但是测试的 AUC 也显著地变差（图 3(b)）。

▲ 图4：DNN与DCN V2的维度坍塌(a)以及模型扩展效果对比(b)

于是，我们又尝试了一种更激进的方法：直接将模型里的显式特征交叉模块替换为隐式交叉，亦即对 embedding 做拼接后接入 MLP，也就是把 DCN V2 替换为 Concat & MLP。我们同样发现 embedding 的维度坍塌得到了一定程度缓解（图 4(a)），但是该模型同样无法有效的进行参数扩展，亦即模型的效果随着参数量变大而显著恶化（图 4(b)）。

我们的方法：多嵌入范式

嵌入维度坍塌会使得某些特征的实际有效维度远低于其设置的嵌入表征长度，所以进一步的拉长这些特征的嵌入表征长度不太可能带来效果提升，这就使得通过拉长特征嵌入表征维度来扩展 (scale up) 推荐模型不可行。

针对该挑战，我们提出了多嵌入范式 (Multi-Embedding Paradigm)，为所有的特征 ID 学习多套嵌入表征，并且基于每套嵌入表征学习独立的专家网络，最后基于混合专家网络（MoE 结构）输出最终预估值。整体结构见下图所示：

▲ 图5：多嵌入范式架构图

实验验证

我们在 Criteo 和 Avazu 两个公开 CTR 数据集上，基于所有的业界主流模型如 DNN、IPNN、NFwFM、xDeepFM、DCN V2、FinalMLP 等，对比了这些模型在单嵌入范式 (Single-Embedding Paradigm) 和多嵌入范式 (Multi-Embedding Paradigm) 的效果。

在相同参数量的情况下，多嵌入模型的效果都要优于单嵌入模型。并且，单嵌入范式下，多数模型的效果随参数量增大会恶化；而在多嵌入范式下，所有模型的效果都会随着参数量增大而变好，亦即达成了推荐模型的扩展。

▲ 表1：在Criteo和Avazu公开数据集上的效果对比

▲ 图6：主流模型在单嵌入和多嵌入范式下的scaling-up效果(Criteo数据集)

同时，我们在腾讯广告多个场景的点击率预估场景上线了该范式，取得了显著的营收提升。具体来说，我们学习了多个不同的特征交互专家网络，例如 GwPFM [2]、IPNN [3]、DCN V2 [4], NFwFM[5] 和 FlatDNN，以及多个嵌入表。一个或多个专家网络共享这些嵌入表。

我们将这种架构命名为基于多嵌入的混合异构专家网络。朋友圈 pCTR 模型用到了 GwPFM、IPNN 和 FlatDNN，以及两个嵌入表。其中，GwPFM 和 FlatDNN 共享第一个嵌入表，而 IPNN 使用第二个嵌入表。从单一嵌入范式转换到上述基于多嵌入的混合异构专家网络，在朋友圈 pCTR 带来了 3.9% 的 GMV 提升。线上的基于该范式的模型结构如下图所示：

▲ 图7：线上Multi-Embedding范式结构图

我们进一步地分析了单嵌入范式与多嵌入范式下 DCN V2 模型的变换后 embedding 维度坍塌情况（图 8），我们可以明显的看到在多嵌入范式下特征域的整体维度坍塌得到了很大缓解，亦即所有变换到特征域j的变换嵌入的信息丰度与特征域 j 本身嵌入的信息丰度的相关性变弱。

▲ 图8：单嵌入(左)和多嵌入范式(右)下特征域的变换后embedding的维度坍塌情况

我们还去分析了多嵌入范式学到的多套嵌入空间之间的多样性。具体地，我们选用 principal angle 来衡量两个嵌入空间的相似度，并且验证了多嵌入范式的确可以学到比单嵌入范式更加多样的嵌入空间（图 9(a)）。我们还去可视化了不同套嵌入对应的专家网络的变换矩阵，发现不同专家网络捕获了不同的特征域交叉规律（图 9(b)）。

▲ 图9：单嵌入和多嵌入范式下的嵌入空间的多样性对比(a)，以及多嵌入范式下不同变换矩阵W的可视化(b)。

结论

本文深入研究了推荐系统模型在规模化过程中遇到的嵌入维度坍塌问题，并提出了一种创新的多嵌入设计来提高模型的可扩展性。通过在两个大型基准数据集上的实验，验证了多嵌入设计在减少嵌入坍塌和提升模型效果方面的有效性。

腾讯广告技术团队已经将此技术应用于腾讯广告新广告投放（3.0）当中，达成推荐模型的 Scaling Law，助力广告主的竞价投放。这项工作不仅为推荐系统领域提供了新的视角，也为深度学习模型的设计提供了宝贵的启示。随着人工智能技术的不断进步，多嵌入设计有望在更多的应用场景中发挥其潜力，推动推荐系统乃至整个深度学习领域的发展。