本文介绍Deep Learning over Multi-field Categorical Data– A Case Study on User Response Prediction,包含Factorisation NN
和Sampling based NN,原文Paper链接;
摘要:
预测用户回应(user response),例如CTR、CVR(转化率)在网页搜索、个性化推荐、在在线广告起着至关重要的作用;不同于图像和音频领域,网页空间的输入特征通常是离散和类别型的,并且依赖性也基本未知;原来要预测用户响应:线性模型(欠拟合)或手工设计高阶交互特征(计算量大);文章提出通过DNN来自动学习有效的类别特征交互模式,为了使DNN有效工作,利用三个特征转换方法:FM(factorisation machines)、RBM(限制波尔兹曼机)、DAE(降噪自编码器);
一、介绍
一堆balabala,就是讲线性模型不能有效的学习出不明显的模式;FM和GBDT虽然能做特征组合,但是不能利用全部不同特征的组合;许多模型需要依靠特征工程和手工设计特征,并且大多数模型是浅层结构,泛化性能不好;
然后文章提出深度学习在图像、文本等的广泛应用,可以学习出局部特征并进而学习出高阶特征筛。但是对于CTR问题,存在多个领域并且都是类别特征(如城市、设备类型、广告类型),他们的局部依赖性是未知的,通过DNN来学习特征表示是很有前景的;文中提出方法Factorisation Machine supported Neural Network (FNN) 和 Sampling-based Neural Network (SNN)。 其中FNN通过监督学习Embedding并用FM来将稀疏特征变成Dense特征,减少维度;SNN通过负采样方式,基于RBM或者DAE。
二、DNNs for CTR Estimation given Categorical Features
如图所示是一个4层的FNN结构:
输入类别特征是field-wise 的One-hot编码形式,只有一个值为1,其他为0;
2.1 Factorisation-machine supported Neural Networks (FNN)
FNN以FM为底层,如上图所示,从上到下描述这个网络:输出是一个sigmoid函数,然后接上两个全连接网络(使用tanh激活函数),这里解释一下Dense层z, z = ( w 0 , z 1 , z 2 , . . . , x i , . . . , z n ) z=(w_0,z_1,z_2,...,x_i,...,z_n) z=(w0,