神经网络中的数值特征Embedding化方法

最新推荐文章于 2024-06-19 23:13:09 发布

rogeroyer

最新推荐文章于 2024-06-19 23:13:09 发布

阅读量1.8k

点赞数

分类专栏：论文笔记文章标签：神经网络人工智能机器学习

本文链接：https://blog.csdn.net/roger_royer/article/details/126060439

版权

论文笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

神经网络中的数值特征Embedding化方法

今天刷到了一篇华为诺亚方舟实验室发表在KDD 2021上的工作，论文标题《An Embedding Learning Framework for Numerical Features in CTR Prediction》，顾名思义，该方法应用于CTR预估，提出了一种针对数值特征的Embedding学习框架 AutiDis。本文主要汇总了论文中的四种数值特征使用方法。

No Embedding

该方法直接使用特征原始值或者经过转化后（非Embedding转化，通常使用归一化）的特征值，例如Google Play中的Wide&Deep，京东的DMT。除此之外，Youtube的DNN对经过标准化后的特征值 $\tilde{x}_{j}$ 进行平方、开根号转换：
$\mathbf{e}_{\text {YouTube }}=\left[\tilde{x}_{1}^{2}, \tilde{x}_{1}, \sqrt{\tilde{x}_{1}}, \tilde{x}_{2}^{2}, \tilde{x}_{2}, \sqrt{\tilde{x}_{2}}, \ldots, \tilde{x}_{N}^{2}, \tilde{x}_{N}, \sqrt{\tilde{x}_{N}}\right]$

Field Embedding

学术界常用的方法是Field Embedding，其中同一Field中的所有数值特征共享同一个Field Embedding，然后将该Field Embedding与其特征值相乘：
$\mathbf{e}_{F E}=\left[x_{1} \cdot \mathbf{e}_{1}, x_{2} \cdot \mathbf{e}_{2}, \ldots, x_{N} \cdot \mathbf{e}_{N}\right]$

Discretization

对于数值特征 $x_{j}$ ，其特征嵌入 $e_{j}$ 可以通过两阶段操作获得：离散化和嵌入查找。
$e_{j}=\mathbf{E}_{j}·d_{j}(x_{j})$
其中， $\mathbf{E}_{j}$ 表示第 $j$ 个数值特征的Embedding矩阵。 $d_{j}(·)$ 是手动设置的离散化方法，通常包含以下方法：

EDD/EFD(Equal Distance/Frequency Discretization)
Equal Distance Discretization也就是数据处理中的等宽分箱，意味着每个桶的大小一致。Equal Frequency Discretization表示等频分箱，每个桶中元素个数相同。
LD(Logarithm Discretization)
Logarithm Discretization是2014年Kaggle竞赛Criteo advertiser prediction冠军方案中使用到的方法，先对特征值取对数，再向上取整，公式如下：
$\widehat{x}_{j}=d_{j}^{L D}\left(x_{j}\right)=f \operatorname{loor}\left(\log \left(x_{j}\right)^{2}\right)$
TD(Tree-based Discretization)
除了深度学习模型外，基于树的模型（如GBDT）由于能够有效处理数值特征而广泛用于推荐领域。因此，许多基于树的方法被用于离散数值特征。
尽管离散化在工业中得到广泛应用，但它们仍然受到三个限制（如下图所示）：

TPP（两阶段问题）：离散化过程由启发式规则或另一个模型确定，因此无法与CTR预测任务的最终目标一起优化，从而导致次优性能。
SBD（相似值但不相似嵌入）：这些离散化策略可能将相似特征（边界值）分离到两个不同的桶中，因此它们的后续嵌入显著不同。例如，常用的年龄字段离散化是将确定为青少年，将确定为中年，这导致数值40和41的嵌入显著不同。
DBS（不相似值但相同嵌入）：现有的离散化策略可能会将显著不同的元素分组到同一个桶中，导致无法区分的嵌入。使用相同的示例，18到40之间的数值在同一个桶中，因此分配了相同的嵌入。然而，18岁和40岁的人可能具有非常不同的特征。基于离散化的策略不能有效地描述数值特征变化的连续性

AutoDis

为了保持高模型容量、端到端训练和独特的表示特性，我们在AutoDis中设计了三个核心模块：元嵌入(meta-embedding)、自动离散化(automatic discretization)和聚合(aggregation)。对于第 $j$ 个数值域特征，AutoDis可以学习每个数值特征 $x_{j}$ 的唯一表示：
$\mathbf{e}_{j}=f\left(d_{j}^{\text {Auto }}\left(x_{j}\right), \mathbf{M E}_{j}\right)$
AutoDis的整体框架图如下所示：
AutoDis

Meta-Embeddings

原文翻译：

一种简单的解决方案是将数值特征视为类别特征，并为每个数值特征分配一个独立的embedding。显然，该方法存在严重缺陷，例如参数爆炸，低频特征训练不足，这在实践中不可取的。相反，为了节省参数，Field Embedding方法在Field内的所有特征值之间共享一个Embedding，由于容量低，降低了模型性能。为了平衡模型容量和复杂性，对于第 $j$ 个字段，我们设计了一组meta-embedding $\mathbf{M E}_{j} \in \mathbb{R}^{H_{j} \times d}$ 由该字段内的特征共享，其中 $H_{j}$ 是元嵌入的数量。元嵌入有助于学习场内共享的全局知识。每个元嵌入可以被视为潜在空间中的子空间，以提高表达能力和容量。通过结合这些元嵌入，学习的嵌入比场嵌入方法信息更丰富，因此可以很好地保持高模型容量。此外，所需参数由 $H_{j}$ 确定。因此，模型复杂度高度可控，使我们的方法具有可扩展性。

个人理解：

就是每个数值特征都预定义一个元嵌入矩阵 $\mathbf{M E}_{j} \in \mathbb{R}^{H_{j} \times d}$ ，不同特征的矩阵大小 $H_{j}$ 自定义。

Automatic Discretization

为了捕捉数值特征值和设计的元嵌入之间的复杂相关性，我们精心提出了一个可微自动离散化模块 $d_{j}^{Auto}(·)$ 。具体来说，利用具有跳跃连接的两层神经网络来离散特征值 $x_{j}$ 到 $H_{j}$ 桶：
$\mathbf{h}_{j}= {\text{LeakyReLU}} ( \mathbf{w}_{j} x_{j} ) , \\ \widetilde{\mathbf{x}}_{j}=\mathbf{W}_{j} \mathbf{h}_{j}+\alpha \mathbf{h}_{j} \\ \widehat{x}_{j}^{h}=\frac{e^{\frac{1}{\tau} \tilde{x}_{j}^{h}}}{\sum_{l=1}^{H_{j}} e^{\frac{1}{\tau} \tilde{x}_{j}^{l}}} \\ \widehat{\mathrm{x}}_{j}=d_{j}^{\text {Auto }}\left(x_{j}\right)=\left[\widehat{x}_{j}^{1}, \ldots, \widehat{x}_{j}^{h}, \ldots, \widehat{x}_{j}^{H_{j}}\right]$
其中， $\tau$ 表示温度系数，用于控制离散化分布。当 $\tau \longrightarrow \infty$ 时，离散分布 $\widehat{\mathrm{x}}_{j}$ 趋近于均匀分布；当 $\tau \longrightarrow 0$ 时，分布趋向于one-hot；所以该参数的设置至关重要。此外，特征在不同领域的分布是相反的，因此非常有必要学习不同的 $\tau$ 针对不同的特征。具体来说，我们提出了一种温度协同高效的自适应网络，该网络同时考虑了全局场统计特征和局部输入特征，如下所示：
$\left.\tau_{x_{j}}=\text { Sigmoid }\left(\mathbf{W}_{j}^{2} \text { LeakyReLU(} \mathbf{W}_{j}^{1}\left[\overline{\mathbf{n}}_{j} \| x_{j}\right]\right)\right)$
其中， $\overline{\mathbf{n}}_{j}$ 是第 $j$ 个Field的全局统计特征向量，包括采样累积分布函数（CDF）和平均值。 $\widehat{\mathrm{x}}_{j}$ 表示meta-embedding中每个embedding向量的权重分布。

Aggregation Function

Max-Pooling
选择具有最高概率 $\widehat{x}_{j}^{h}$ 的最相关元嵌入：
$\mathbf{e}_{j}=\operatorname{ME}_{j}^{k} \text {, where } k=\operatorname{argmax} _{h \in \{1,2,...,H_{j} \} } \widehat{x}_{j}^{h}$
Top-K-Sum
将相关性最高的 top-K 元嵌入 $\widehat{x}_{j}^{h}$ 相加 :
$\mathbf{e}_{j}=\sum_{l=1}^{K} \mathrm{ME}_{j}^{k_{l}}, \text { where } k_{l}=\underset{l}{\arg \operatorname{top}} \quad h \in\left\{1,2, \ldots, H_{j}\right\} \widehat{x}_{j}^{h},$
Weighted-Average
Meta-Embedding相当于Value，Automatic Discretization得到的 $\widehat{\mathrm{x}}_{j}$ 相当于权重。本文采用最后这种方式进行聚合。