XDeepFM高阶特征交互,特征交互：一种极深因子分解机模型

最新推荐文章于 2024-08-17 08:37:49 发布

datayx

最新推荐文章于 2024-08-17 08:37:49 发布

阅读量1.8k

点赞数 2

原文链接：https://loveai.tech

版权

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

1、引言

对于预测性的系统来说，特征工程起到了至关重要的作用。特征工程中，挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。例如，在新闻推荐场景中，一个三阶交叉特征为AND(user_organization=msra,item_category=deeplearning,time=monday_morning),它表示当前用户的工作单位为微软亚洲研究院，当前文章的类别是与深度学习相关的，并且推送时间是周一上午。

传统的推荐系统中，挖掘交叉特征主要依靠人工提取，这种做法主要有以下三种缺点：

1）重要的特征都是与应用场景息息相关的，针对每一种应用场景，工程师们都需要首先花费大量时间和精力深入了解数据的规律之后才能设计、提取出高效的高阶交叉特征，因此人力成本高昂；

因此自动学习特征间的交互关系是十分有意义的。目前大部分相关的研究工作是基于因子分解机的框架，利用多层全连接神经网络去自动学习特征间的高阶交互关系，例如FNN、PNN和DeepFM等。其缺点是模型学习出的是隐式的交互特征，其形式是未知的、不可控的；同时它们的特征交互是发生在元素级（bit-wise）而不是特征向量之间（vector-wise），这一点违背了因子分解机的初衷。来自Google的团队在KDD 2017 AdKDD&TargetAD研讨会上提出了DCN模型，旨在显式（explicitly）地学习高阶特征交互，其优点是模型非常轻巧高效，但缺点是最终模型的表现形式是一种很特殊的向量扩张，同时特征交互依旧是发生在元素级上。

微软亚洲研究院社会计算组提出了一种极深因子分解机模型（xDeepFM），不仅能同时以显式和隐式的方式自动学习高阶的特征交互，使特征交互发生在向量级，还兼具记忆与泛化的学习能力。

论文地址 https://arxiv.org/pdf/1803.05170.pdf.

Embedding Layer

介绍一些基于"univalent","multivalent"进行embedding的基础知识，这里不介绍了:

640?wx_fmt=png

这种架构是bit-wise层面的，意思是说，即使是同一个filed embedding，不同的element之间也会互相影响。

PNN和DeepFM基于上面的缺点进行了改进，除了DNN component,还添加了two-way interation layer到架构中，这样就既有vector-wise也有bit-wise的component了。PNN和DeepFM的区别就是DeepFM是把product layer直接作为结果连到输出层，而PNN是把product layer放在DNN和embedding layer之间

640?wx_fmt=png

Explicit High-order Interactions

这里主要介绍了Cross Network(cross net)也是本文主要借鉴的一种模型，下面是该模型的架构：

640?wx_fmt=png

通过推导可以看出其实**每一个隐含层都是x0的一个scalar multiple,**这当然不是代表隐含层是x0的线性表达，只是说因为每一层原生x0都会参与计算，因此对x0非常敏感。但是其缺点为：

crossnet的输出是一种特殊形式，即x0的scalar multiple
交互特征仍然是bit-wise层面的

本论文设计了一种新的cross network, 称为Compressed Interaction Network (CIN), 设计的时候主要考虑了下面三个方面：

交互特征是在vector-wise层面的(主要基于crossnet改进了这点)
高维交互特征是显式的
网络的复杂度不会因为交互层级的增加而增加

下面介绍了一些在CIN的中的概念：

既然在CIN中是vector-wise层级的，那么每一个unit是一个vector，因此field embedding的输出是一个mxD的矩阵(D:embedding size,m:filed size)，CIN的第k层是一个Hk x D的矩阵(Hk代表的是CIN中每一层的向量数量，H0=m),下面是第CIN第k层的h-emb的计算公式：

640?wx_fmt=png

图(a)和(b)表示了如何从这一层的隐藏层（Hk x D）和X^0层（m X D）来产生下一层隐藏层的（Hk+1 x D）,图示所示计算方法是为了更好的展现为什么模型有CNN的思想，先通过X0和Xk的第i列做一个outer product(matrix multiplication)得到一个Hk x m的矩阵(0<=i<D), 然后W就像是CNN中的filter,来过滤产生每个feature map的第i列，这样CNN中的"compressed"在CIN中就指代 Hk x D矩阵压缩为Hk+1 x D矩阵。

需要注意的是，**CIN的输出是除了X0以外每一层的feature map的sum pooling横向拼接的结果。**然后根据所需要进行的任务套一个激活函数就行了，比如sigmoid:

640?wx_fmt=png