浅谈 CTR 预估模型发展史

最新推荐文章于 2024-04-12 09:57:53 发布

PaperWeekly

最新推荐文章于 2024-04-12 09:57:53 发布

阅读量693

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105501325

版权

本文概述了CTR预估模型的发展历程，从传统的LR、FM到基于深度学习的DNN、PNN、DeepFM等，强调了模型如何逐步改进特征交互和预测精度，特别提到了注意力机制和兴趣演化在网络中的应用。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜Zhang

学校｜上海交通大学硕士生

研究方向｜深度学习、自然语言处理

背景介绍

Click Through Rate (CTR) Prediction 是一项非常重要的工业任务，例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价，有的推荐系统则基于 CTR 进行排序。

CTR 预测即给定一个用户/物品（广告）对，预测用户点击该物品的概率。其中输入的特征往往包括连续特征（年龄）和枚举特征（性别、地区），即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征（如性别）和多取值的特征（如购买记录）。

一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征，之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。

模型发展史

传统的模型有：LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。

2.1 2016年

最简单的基于 deep learning 的模型设计，例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入，在其上叠加多层的神经网络直接预测 CTR。

该文提出 FM supported 和 sampling based NN 两种具体实现方式，分别通过 FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值，以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数；最后通过 fine-tune 的方式训练最终模型。

不同于上述模型完全依赖神经网络（如果不考虑预训练的作用）来学习不同 feature 之间的交互关系，另一类模型既显式地建模 feature 之间的低阶交互关系，又同时借助神经网络来建模高阶交互关系。

比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征，最后将原始的一阶和交互的二阶特征相加输入神经网络。

Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature，通过 linear model 进行预测。

deep model 则直接从一阶 feature 出发叠加神经网络；最终将 Wide&Deep 两个模型 joint learning 训练。

2.2 2017年

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN，其中 DNN 的输入共享使用了 FM 中的 latent vector，最终结合两部分的 feature 进行最终预测。

Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN，最终合并两个分支的 feature 进行最终预测。

其中 cross network 显式地建模了高阶（对应 cross network 的层数，不同于其他模型设计中只有二阶的显式交互设计）的 feature 交互。

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上，通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和：