前言
今天分享一篇斯坦福与谷歌2017发表的推荐论文《Deep & Cross Network for Ad Click Predictions》。本文的亮点是作者提出了Cross网络来增强特征之间的交互。
本文约2.3k字,预计阅读15分钟
Deep & Cross Network for Ad Click Predictions
Deep&Cross模型是2017年由斯坦福大学和谷歌在ADKDD会议上联合提出的,该模型是对Wide&Deep模型的一种改进。由于Wide&Deep模型的Wide部分的特征交互需要特征工程,而手工设计特征工程非常的繁琐【虽然好的特征工程是在比赛中很多模型成功的关键因素之一】。2阶的FM模型在线性的时间复杂度中自动进行特征交互,但是这些特征交互的表现能力并不够,并且随着阶数的上升,模型复杂度会大幅度提高。所以**作者对Wide部分进行更改,提出了一个Cross Network来自动进行特征之间的交叉,并且网络的时间和空间复杂度都是线性的。**通过与Deep部分相结合,构成了深度交叉网络(Deep & Cross Network),简称DCN。
Deep & Cross
模型的结构非常简洁,从下往上依次为:Embedding和Stacking层、Cross网络层与Deep网络层并列、输出合并层,得到最终的预测结果。
Embedding and Stacking Layer
根据模型结构图我们发现,输入的特征分为密集型【连续】特征和稀疏离散型特征。但大部分特征都为分类的稀疏特征,为了输入到网络中,一般将进行one-hot编码操作,但这样会导致过高的维度特征空间。因此需要Embedding操作将高维稀疏特征转化为低维密集型特征:
其中对于某一类稀疏分类特征(如id), 是第 个分类值(id序号)的embedding向量。 表示该类特征的embedding矩阵, 表示embedding的隐藏单元, 表示该类特征的数量(如id的总数)。 表示某个样本在该特征的二元稀疏向量(如id=1的one-hot向量)。【实质上就是在训练得到的Embedding参数矩阵中找到属于当前样本对应的Embedding向量】
其实绝大多数基于深度学习的推荐模型都需要Embedding操作,参数学习是通过神经网络进行训练。
最后,该层需要将所有的密集型特征与通过embedding转换后的特征进行联合(Stacking):
Cross Network
这是本文最大的创新点---Cross网络(Cross Network),设计该网络的目的是增加特征之间的交互力度。交叉网络由多个交叉层组成,假设第 层交叉层的输出向量为 ,那么对于第