©PaperWeekly 原创 · 作者|Zhang
学校|上海交通大学硕士生
研究方向|深度学习、自然语言处理
背景介绍
Click Through Rate (CTR) Prediction 是一项非常重要的工业任务,例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价,有的推荐系统则基于 CTR 进行排序。
CTR 预测即给定一个用户/物品(广告)对,预测用户点击该物品的概率。其中输入的特征往往包括连续特征(年龄)和枚举特征(性别、地区),即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征(如性别)和多取值的特征(如购买记录)。
一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征,之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。
模型发展史
传统的模型有:LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。
2.1 2016年
最简单的基于 deep learning 的模型设计,例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入,在其上叠加多层的神经网络直接预测 CTR。
该文提出 FM supported 和 sampling based NN 两种具体实现方式,分别通过 FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值,以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数;最后通过 fine-tune 的方式训练最终模型。
不同于上述模型完全依赖神经网络(如果不考虑预训练的作用)来学习不同 feature 之间的交互关系,另一类模型既显式地建模 feature 之间的低阶交互关系,又同时借助神经网络来建模高阶交互关系。
比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征,最后将原始的一阶和交互的二阶特征相加输入神经网络。
Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature,通过 linear model 进行预测。
deep model 则直接从一阶 feature 出发叠加神经网络;最终将 Wide&Deep 两个模型 joint learning 训练。
2.2 2017年
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN,其中 DNN 的输入共享使用了 FM 中的 latent vector,最终结合两部分的 feature 进行最终预测。
Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN,最终合并两个分支的 feature 进行最终预测。
其中 cross network 显式地建模了高阶(对应 cross network 的层数,不同于其他模型设计中只有二阶的显式交互设计)的 feature 交互。
Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上,通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和:
其中 attention score