点击率预估算法：FM与FFM

最新推荐文章于 2025-06-26 18:39:39 发布

原创

最新推荐文章于 2025-06-26 18:39:39 发布 · 3.3w 阅读

109 ·

CC 4.0 BY-SA版权

文章标签：

#计算广告 #FFM #FTRL #点击率预估 #FM

本文深入探讨了点击率预估中的FM（Field-aware Factorization Machines）和FFM（Factorization Machine with Field-aware factors）算法。首先介绍了线性模型的局限性，然后详细阐述了FM的基本原理、数据分析、参数个数、计算时间复杂度以及梯度计算。接着，文章转向FFM，分析其背景、模型结构、最优化问题、自适应学习率和完整的算法流程。通过对比，揭示了FFM如何通过考虑特征字段信息来改进FM，以及FFM在计算速度优化上的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、FM

1.1 背景

1.1.1 线性模型

常见的线性模型，比如线性回归、逻辑回归等，它只考虑了每个特征对结果的单独影响，而没有考虑特征间的组合对结果的影响。

对于一个有n维特征的模型，线性回归的形式如下：

$\begin{aligned} f(x) &= \omega_0 + \omega_1x_1+\omega_2x_2+...+\omega_nx_n \\ &=\omega_0+\sum_{i=1}^n{\omega_ix_i} \end{aligned} \qquad (1)$

其中 $(\omega_0,\omega_1...\omega_n)$ 为模型参数， $x_1,x_2...x_n)$ 为特征。
从(1)式可以看出来，模型的最终计算结果是各个特征的独立计算结果，并没有考虑特征之间的相互关系。

举个例子，我们认为“USA”与"Thanksgiving"，”China"与“Chinese new year”这样的组合特征是很有意义的，在这样的组合特征下，会对某些商品表现出更强的购买意愿，而单独考虑国家及节日都是没有意义的。

1.1.2 二项式模型

我们在（1）式的基础上，考虑任意2个特征分量之间的关系，得出以下模型：

$f(x)=\omega_0+\sum_{i=1}^n\omega_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n\omega_{ij}x_ix_j \qquad (2)$

这个模型考虑了任意2个特征分量之间的关系，但并未考虑更高阶的关系。
模型涉及的参数数量为：
$1+n+\frac{n(n-1)}{2}=\frac{1}{2}(n^2+n+2) \qquad (3)$

对于参数 $\omega_i$ 的训练，只要这个样本中对应的 $x_i$ 不为0，则可以完成一次训练。
但对于参数 $\omega_{ij}$ 的训练，需要这个样本中的 $x_i$ 和 $x_j$ 同时不为0，才可以完成一次训练。
在数据稀疏的实际应用场景中，二次项 $\omega_{ij}$ 的训练是非常困难的。因为每个 $\omega_{ij}$ 都需要大量 $x_i$ 和 $x_j$ 都不为0的样本。但在数据稀疏性比较明显的样本中， $x_i$ 和 $x_j$ 都不为0的样本会非常稀少，这会导致 $\omega_{ij}$ 不能得到足够的训练，从而不准确。

1.2 FM

1.2.1 FM基本原理

为了解决二项式模型中由于数据稀疏引起的训练不足的问题，我们为每个特征维度 $x_i$ 引入一个辅助向量：

$V_i = (v_{i1},v_{i2},v_{i3},...,v_{ik})^T\in \mathbb R^k, i=1,2,3,...,n \qquad(4)$
其中 $k$ 为辅助变量的维度，依经验而定，一般而言，对于特征维度足够多的样本， $k < < n$ 。
将 $\omega_{ij}$ 表示为：
$\omega_{ij}=V_i^TV_j=\sum_{l=1}^kv_{il}v_{jl} \qquad(5)$
简单的说，我们不再简单的使用样本训练具体的 $\omega_{ij}$ ，而是先训练2个隐变量 $V_i$ 以及 $V_j$ ，然后使用式（5）求出最终的 $\omega_{ij}$ 。

具体而言， $\omega_{ij}=V_i^TV_j$ 与 $\omega_{hi}=V_h^TV_i$ 有相同的项 $V_i$ ，也就是只要样本中的 $x_i$ 不为0，且最少具有一个其它特征，则这个样本则可用于训练 $V_i$ ，这就解决了数据稀疏性导致的问题。

于是，在FM中，模型可以表达为：
$\omega_0+\sum_{i=1}^n\omega_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n(V_i^TV_j)x_ix_j \qquad(6)$

1.2.2 数据分析

我们的目标是要求得以下交互矩阵W：
$\begin{pmatrix} \omega_{11} & \omega_{12}& ... &\omega_{1n} \\ \omega_{21} & \omega_{22}& ... &\omega_{2n} \\ \vdots &\vdots &\ddots &\vdots\\ \omega_{n1} & \omega_{n2}& ... &\omega_{nn} \\ \end{pmatrix}_{n\times n} \qquad(7)$

由于直接求解W不方便，因此我们引入隐变量V：
$\begin{pmatrix} v_{11} & v_{12}& ... &v_{1k} \\ v_{21} & v_{22}& ... &v_{2k} \\ \vdots &\vdots &\ddots &\vdots\\ v_{n1} & v_{n2}& ... &v_{nk} \\ \end{pmatrix}_{n\times k}=\begin{pmatrix} V_1^T\\ V_2^T\\ \cdots \\ V_n^T\\ \end{pmatrix} \qquad(8)$