今天分享一篇华为在连续特征处理方面的工作,提出了一种高模型容量、端到端训练、每个特征值具有单独embedding的框架,称作AutoDis,一起来学习一下。
1、背景
目前大多数的CTR模型采用的是Embedding和Feature Interaction(以下简称FI)架构,如下图所示:
当前大多数的研究主要集中在设计新颖的网络架构来更好的捕获显式或隐式的特征交互,如Wide & Deep的Wide部分、DCN中的CrossNet、DIN中的注意力机制等等。而另一个主要的部分,即Embedding模块同样十分重要,出于以下两个原因:
1)Embedding模块是FI模块的上游模块,直接影响FI模块的效果;
2)CTR模型中的大多数参数集中在Embedding模块,对于模型效果有十分重要的影响。
但是,Embedding模块却很少有工作进行深入研究,特别是对于连续特征的embedding方面。接下来,首先简单介绍下CTR模型中连续特征几种常见的处理方式,然后对论文提出的AutoDis框架进行介绍。
2、连续特征处理
CTR预估模型的输入通常包含连续特征和离散特征两部分。对于离散特征,通常通过embedding look-up操作转换为对应的embedding;而对于连续特征的处理,可以概括为三类:No Embedding, Field Embedding和Discretization(离散化)。
2.1 No Embedding
第一类是不对连续特征进行embedding操作,如Wide & Deep直接使用原始值作为输入,而在Youtube DNN中,则是对原始值进行变换(如平方,开根号)后输入:
这类对连续特征不进行embedding的方法,由于模型容量有限,通常难以有效捕获连续特征中信息。
2.2 Field Embedding
第二类是进行 Field Embedding,也就是同一fiel