python广告点击率预测_推荐系统中的点击率预估 – Advertising & Recommendation

最新推荐文章于 2022-08-24 13:00:09 发布

weixin_39845825

最新推荐文章于 2022-08-24 13:00:09 发布

阅读量1k

点赞数

文章标签： python广告点击率预测

本文链接：https://blog.csdn.net/weixin_39845825/article/details/111851631

版权

本文介绍了基于Logistic Regression和FTRL的广告点击率预估模型在推荐系统中的应用。点击率预估是排序层的关键，Logistic Regression因其简单高效被广泛应用。文章还探讨了在线学习方法，如截断梯度法(TG)、FTRL等，这些方法能处理大数据量并提高模型的稀疏性和预测准确性。

摘要由CSDN通过智能技术生成

推荐系统的框架模式大致是：多种召回策略(触发层)，一种融合排序策略(排序层)，也可认为两阶段排序模型[33]：

召回策略方法繁多(例如常见的协同过滤中的item-based，user-based，以及MF矩阵分解)，最终的融合排序层中，如果采用point-wise[24]排序方法，最常用的是点击率(CTR)预估[1]，作为排序依据。

点击率预估 = 在某种环境x下，某个推送y展现给某个用户z后，用户点击的概率r。广告中点击率预估计算出的是精准的点击概率，A点击率0.22% , B点击率0.34%等，需要结合其它因子(出价)用于排序；推荐算法对准确值没有明确要求，只需计算出一个最优的次序A>B>C即可[31]。点击率 = 浏览数/点击数(点击率越高，意味着在相同投入的情况下，收获了更多的用户注意力)。

本文介绍基于Logistic Regression和FTRL的点击率预估模型，其它更多方法请参见[10]。本文结构如下 Logistic Regression

Online Learning TG

FOBOS

RDA

FTL

FTRL

数据预处理采样

特征工程

评估

代码实现

Logistic Regression

在图片广告(display advertising)中CTR的预测方法被广泛研究，逻辑回归(Logistic Regression，LR)因为在大规模系统中的实现简单和高性能，是工业界使用最为广泛的 CTR 预估模型。

如果用逻辑回归来建模点击率预测的问题，我们根据以下框架来进行：在t时刻，利用特征向量Xt来描述一个实例，同时给定模型权重向量Wt，预测p(t)=σ(Wt•Xt)，其中σ = 1=(1 + exp(-a))为sigmoid函数。对应的log损失函数(logloss)为

通过上式可以很容易计算出loss function关于W的梯度

LR 模型简单，训练时便于并行化，在预测时只需要对特征进行线性加权，所以性能比较好，往往适合处理海量 id 类特征，用 id 类特征有一个很重要的好处，就是防止信息损失(相对于范化的 CTR 特征)，对于头部资源会有更细致的描述。

LR 的缺点也很明显，首先对连续特征的处理需要先进行离散化，人工分桶的方式会引入多种问题。另外 LR 需要进行人工特征组合，这就需要开发者有非常丰富的领域经验，才能不走弯路。这样的模型迁移起来比较困难，换一个领域又需要重新进行大量的特征工程[10]。

Online Learning

无论是线性回归(Linear Regression)、逻辑回归(Logistic Regression)、支持向量机(SVM)、深度学习(Deep Learning)中，最优化求解都是基本的步骤。常见的梯度下降、牛顿法、拟牛顿法等属于批量处理的方法(Batch)，每次更新都需要对已经训练过的样本重新训练一遍。而当我们面对高维高数据量的时候，批量处理的方式就显得笨重和不够高效，因此需要在线学习(Online Learning)的方法来解决相同的问题[7]。

在线学习算法的特点是：每来一个训练样本，就用该样本产生的loss和梯度对模型迭代一次，一个一个数据地进行训练，因此可以处理大数据量训练和在线训练。在进行大规模的模型训练时，线性模型的Online Learning算法有很多优势。尽管特征向量可能有多大上亿的维度，但每个样本可能只有几百个维度有非零值。因为每个样本只需要考虑一次，这种特性允许从硬盘或者网络流式读取数据来进行有效训练[4]。Online Learning能够根据线上反馈数据，实时快速地进行模型调整，使得模型及时反映线上的变化，提高线上预测的准确率[3]。

在Batch模式下，L1正则化通常产生更加稀疏(Sparse)的模型，系数𝑊的更多维度为0，这些为0的维度就代表了不是很相关的维度，从而起到了特征选择(Feature Selection)的目的。不同于Batch训练方法的是，Online中每次权重向量W的更新并不是沿着全局梯度进行下降，而是沿着某个样本的产生的梯度方向进行下降，整个寻优过程变得像是一个随机查找的过程(这就是SGD中Stochastic的来历)，这样Online最优化求解即使采用L1正则化的方式，也很难产生稀疏解。在各个在线最优化求解算法中，稀疏性是其中一个主要的追求目标[7]。尤其做工程应用，稀疏的特征会大大