原文链接
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
Motivation
在这篇文章以前,一些CTR预测模型模型要么关注 low-order feature,要么关注 high-order feature,或者包括了 low- and high-order feature(比如Google的 Wide & Depp模型),但需要对输入作额外的特征工程
contributions
- 通过FM的线性以及二阶非线性特征提取能力 + MLP的高阶非线性提取能力构造了deepFM模型,可以同时捕获high- and low-order feature
- 不需要对输入作特征工程,而是直接将其映射为embedding(改embedding共享MLP输入和FM的二阶因子)
模型结构
FM Component
FM Component提取一阶和二阶特征关系,FM的公式如下:
如图可知,其不仅仅是特征的线性组合,还 model 了特征间的关系。相比于矩阵分解(MF)带来了一些非线性性质,但朴素的FM无法提取二阶以上的特征间的关系,而理论上说,FM可以拓展到任意阶的非线性。而论文是采用MLP来捕获高阶非线性特征关系,可能是受到了当时最新的Google Wide & Deep 网络结构的影响。
Deep Component
对于Deep部分,其将离散的特征直接映射到embedding再将其concat从而作为MLP的输入,论文中对比了不同MLP结构,在该模型中最优的结构是每层神经元的数量相同
deepFM
最后将两部分的计算结果简单的相加即为deepFM模型的最终输出
EXPERIMENTS
数据集
- Criteo Dataset,这是Kaggle上一个关于CTR预测的比赛数据集
- Company∗ Dataset,这是华为公司自己的数据集
Evaluation Metrics
- AUC
- Logloss(cross entropy)
对比实验
这是DeppFM与一些模型的对比,后面还要超参数的一些小实验可以看原文
总结与思考
- Wide & Deep 结构是一个经典的结构,在学习MLP的时候很多时候都是利用的这种结构来提取特征,那么是否还能用其它的结构来预测CTR
- 如果利用FM来提取order-1 feature的关系,MLP作为order-2 feature的关系,是否能利用MLP来提取feature之间复杂的关系(包括order-1和order-2),毕竟MLP能拟合一切关系,不过缺点就是复杂度太高,效率不高