点击率预测算法：FTRL

最新推荐文章于 2023-03-09 13:53:45 发布

jediael_lu

最新推荐文章于 2023-03-09 13:53:45 发布

阅读量6.7k

点赞数 1

分类专栏： 8.CTR_推荐系统文章标签： CTR 逻辑回归 FTRL 点击率预估计算广告

本文链接：https://blog.csdn.net/jediael_lu/article/details/77772542

版权

本文详细介绍了点击率预测算法FTRL，起源于谷歌的CTR预估，主要探讨了逻辑回归的基础，包括sigmoid函数、极大似然估计、梯度下降及其损失函数。接着讲解了FOBOS和RDA的基本原理，特别是它们在L1正则化条件下的应用。FTRL算法作为这两者的结合，结合了高精度和稀疏性的优点，其权重更新的最终形式和工程实现进行了深入讨论。FTRL在实际工程中的应用策略，如样本数量减少、浮点数编码优化和模型资源共享，也进行了探讨。

摘要由CSDN通过智能技术生成

1、逻辑回归

FTRL本质上是一种优化方法，最早由google提出并用于CTR预估。常被用于逻辑回归的优化，因此先简单介绍一下逻辑回归的内容。

1.1 sigmoid函数

由于二分类结果是1或者0，这与数学的阶跃函数很类似，但是阶跃函数在x=0的位置会发生突变，这个突变在数学上很难处理。所以一般使用sigmoid函数来拟合：

$g(z)={\frac 1{1+e^{-z}}} \qquad(1)$

具体应用到逻辑回归算法中：

$z={\omega}_0+{\omega}_1x_1+{\omega}_2x_2+......+{\omega}_nx_n=\sum_{i=0}^n{\omega}_ix_i=\mathbf{\omega^TX} \qquad(2)$

其中 $x_i$ 表示样本属性（对于我们而言，就是标签IP）的值， $\omega_i$ 表示这个属性对应的系数（也就是算法需要计算的内容）。注意这里将 $x_0$ 与 $\omega_0$ 也代入了上述公式，其中前者恒为1。于是问题就变成了在训练样本中，已知属性x与最终分类结果y（1或者0）时，如何求得这些系数 $\omega_i$ ，使得损失最小。

1.2 极大似然估计MLE与损失函数

在机器学习理论中，损失函数（loss function）是用来衡量模型的预测值 $f (x)$ 与真实值 $Y$ 的不一致程度，它是一个非负实值函数，损失函数越小，模型越优（还需考虑过拟合等问题）。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子

$\omega^* = \arg \min_\omega \frac{1}{m}{}\sum_{i=1}^{m} L(y_i, f(x_i; \omega)) + \lambda\ \Phi(\omega) \qquad(3)$

其中m表示样本的数量。对于逻辑回归，其loss function是log损失，这可以通过极大似然估计进行推导得到。

首先，给定一个样本 $x$ ，可以使用一个线性函数对自变量进行线性组合，即上述的（2）式子：
$z={\omega}_0+{\omega}_1x_1+{\omega}_2x_2+......+{\omega}_nx_n=\sum_{i=0}^n{\omega}_ix_i=\mathbf{\omega^TX} \qquad(4)$

根据sigmoid函数，我们可以得出预测函数的表达式为：
$h_{\omega}(x) = g(\omega^Tx) = \frac{1}{1 + e^{-\omega^Tx}} \qquad(5)$
上式表示 $y = 1$ 的预测函数为 $h_{\omega}(x)$ 。在这里，假设因变量 $y$ 服从伯努利分布，那么可以得到下列两个式子：

$\begin{aligned} p(y=1 | x) &= h_{\omega} (x) \quad\qquad(6)\\ p(y=0 | x) &= 1 - h_{\omega} (x) \qquad(7) \end{aligned}$
而对于上面的两个表达式，通过观察，我们发现，可以将其合并为以下表达式：
$h_{\omega} (x)^y (1-h_{\omega} (x))^{1-y} \qquad(8)$
根据上面的式子，给定一定的样本之后，我们可以构造出似然函数，然后可以使用极大似然估计MLE的思想来求解参数。但是，为了满足最小化风险理论，我们可以将MLE的思想转化为最小化风险化理论，最大化似然函数其实就等价于最小化负的似然函数。对于MLE，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说是什么样的参数才能使我们观测到目前这组数据的概率最大。使用MLE推导LR的loss function的过程如下。
首先，根据上面的假设，写出相应的极大似然函数（假定有 $m$ 个样本）：
$\begin{aligned} L(\omega)&= \prod_{i=1}^{m} p(y_i | x_i; \omega) \\ &= \prod_{i=1}^{m} h_{\omega} (x_i)^{y_i} (1-h_{\omega} (x_i)^{1-y_i} \\ \end{aligned} \qquad(9)$

上述式子中的 $\omega$ 及 $x_i$ 均为向量，并未显示其转置。

直接对上面的式子求导会不方便，因此，为了便于计算，我们可以对似然函数取对数，经过化简可以得到下式的推导结果：
$\begin{aligned} \log L(\omega)&= \sum_{i=1}^{m} \log \left [ (h_{\omega} (x_i)^{y_i} (1-h_{\omega} (x_i))^{1-y_i}) \right ] \\ &= \sum_{i=1}^{m} \left [ y_i \log h_{\omega} (x_i) + (1-y_i) \log(1-h_{\omega} (x_i)) \right ] \\ \end{aligned} \qquad(10)$

因此，损失函数可以通过最小化负的似然函数得到，即下式：

$J(\omega) = - \frac{1}{m} \sum_{i=1}^m \left [ y_i \log h_{\omega}(x_i) + (1-y_i) \log(1-h_{\omega}(x_i) \right ] \qquad(11)$

在周志华版的机器学习中，将sigmiod函数代入 $h_{\omega}(x_i)$ ，并使用ln代替log，上述公式表示为：

$\begin{aligned} J(\omega) &= - \frac{1}{m} \sum_{i=1}^m \left [ y_i \ln h_{\omega}(x_i) + (1-y_i) \ln(1-h_{\omega}(x_i) \right ]\\ &=- \frac{1}{m} \sum_{i=1}^m \left [ y_i\ln \frac{1}{1+e^{-\omega x_i}}+(1-y_i)\ln \frac{e^{-\omega x_i}}{1+e^{-\omega x_i}}\right ]\\ &=- \frac{1}{m} \sum_{i=1}^m \left [ \ln \frac{1}{1+e^{\omega x_i}} + y_i \ln \frac{1}{e^{-\omega x_i}}\right ]\\ &= \frac{1}{m} \sum_{i=1}^m \left [ -y_iwx_i + \ln(1+e^{\omega x_i})\right ] \end{aligned} \qquad(12)$