论文总结《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction(DeepFM)》

原文链接

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

论文复现代码

Motivation

在这篇文章以前,一些CTR预测模型模型要么关注 low-order feature,要么关注 high-order feature,或者包括了 low- and high-order feature(比如Google的 Wide & Depp模型),但需要对输入作额外的特征工程

contributions

  1. 通过FM的线性以及二阶非线性特征提取能力 + MLP的高阶非线性提取能力构造了deepFM模型,可以同时捕获high- and low-order feature
  2. 不需要对输入作特征工程,而是直接将其映射为embedding(改embedding共享MLP输入和FM的二阶因子)

模型结构

FM Component

FM Component提取一阶和二阶特征关系,FM的公式如下:
在这里插入图片描述如图可知,其不仅仅是特征的线性组合,还 model 了特征间的关系。相比于矩阵分解(MF)带来了一些非线性性质,但朴素的FM无法提取二阶以上的特征间的关系,而理论上说,FM可以拓展到任意阶的非线性。而论文是采用MLP来捕获高阶非线性特征关系,可能是受到了当时最新的Google Wide & Deep 网络结构的影响。

在这里插入图片描述

Deep Component

在这里插入图片描述对于Deep部分,其将离散的特征直接映射到embedding再将其concat从而作为MLP的输入,论文中对比了不同MLP结构,在该模型中最优的结构是每层神经元的数量相同

deepFM

在这里插入图片描述
最后将两部分的计算结果简单的相加即为deepFM模型的最终输出

EXPERIMENTS

数据集

  1. Criteo Dataset,这是Kaggle上一个关于CTR预测的比赛数据集
  2. Company∗ Dataset,这是华为公司自己的数据集

Evaluation Metrics

  1. AUC
  2. Logloss(cross entropy)

对比实验

在这里插入图片描述这是DeppFM与一些模型的对比,后面还要超参数的一些小实验可以看原文

总结与思考

  1. Wide & Deep 结构是一个经典的结构,在学习MLP的时候很多时候都是利用的这种结构来提取特征,那么是否还能用其它的结构来预测CTR
  2. 如果利用FM来提取order-1 feature的关系,MLP作为order-2 feature的关系,是否能利用MLP来提取feature之间复杂的关系(包括order-1和order-2),毕竟MLP能拟合一切关系,不过缺点就是复杂度太高,效率不高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值