AutoDis: Automatic Discretization for Embedding Numerical Features in CTR Prediction
Huifeng Guo, Bo Chen, Ruiming Tang, Zhenguo Li, Xiuqiang He
Noah’s Ark Lab
https://arxiv.org/pdf/2012.08986v1.pdf
推荐系统中,学习特征交互在CTR预估中非常重要。很多深层CTR模型遵循embedding 和 特征交互的范式。
大多数模型集中在特征交互模块,设计网络结构来更好的对特征交互进行建模。embedding模块,作为数据和特征交互模块的桥梁,被忽略了。
数值特征进行embedding常用的方法是归一化和离散化。前者在多个特征之间共享一个embedding,后者通过多种离散化方法,将数值特征转换为类别特征。
但是,第一种方法表达能力有限,第二种也是性能有限,因为离散化不能随着CTR模型的最终目标而优化。
为了解决数值特征的表达能力的问题,这篇文章提出一种自动离散化框架,AutoDis,它可以自动将数值特征离散化,并且以端到端的形式跟CTR模型一起优化。
具体而言,作者们为每一个数值域引入一个元embedding集合,可以对跨域的特征之间的关系进行建模,提出一种自动微分离散化和聚合方法,可以捕捉数值特征和元embedding之间的关联性。
两个公开数据集和一个工业界数据集上的实验表明,AutoDis相对STOA方法效果更优。
数值型特征不太容易利用embedding方法
这篇文章提出的AutoDis具有以下两个特性
这篇文章的主要贡献如下
目前大多数深层CTR模型基本都包含了下面两个模块
特征交互主要分为以下几类