CTR经典模型串讲：FM / FFM / 双线性 FFM 相关推导与理解

本文链接：https://blog.csdn.net/VariableX/article/details/107529033

本文介绍了CTR预测中的经典模型FM、FFM和双线性FFM。FM通过矩阵分解解决高维稀疏特征组合问题，FFM引入字段感知，考虑特征与字段的关系，双线性FFM则通过参数共享减少计算量。各模型通过不同的特征交互方式提升预测效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CTR 系列文章：

FM

在计算广告领域，因子分解机(Factorization Machines，FM)是很经典的模型，面对量大且稀疏的数据，此算法仍然可以取得比较优秀的效果。

假设有下面的数据：

Clicked?	Country	Day	Ad_type
1	USA	26/11/15	Movie
0	China	1/7/14	Game
1	China	19/2/15	Game

其中，Clicked? 是label，Country、Day、Ad_type是特征。由于三种特征都是类别型的，需要经过独热编码（One-Hot Encoding）转换成数值型特征：

Clicked?	Country=USA	Country=China	Day=26/11/15	Day=1/7/14	Day=19/2/15	Ad_type=Movie	Ad_type=Game
1	1	0	1	0	0	1	0
0	0	1	0	1	0	0	1
1	0	1	0	0	1	0	1

经过编码之后，数据变的非常稀疏，在工业界这也是很难避免的一个问题。在这些稀疏的特征中，如果将其中一些特征加以关联，就可能得到与label管理更紧密的特征。例如对于 China 而言，19/2/15（即2015年2月19日）这天是春节，可能存在大量浏览和购买行为，广告点击率自然也会上升。

为了不错过任何有意义的特征组合，我们将所有特征两两组合起来形成新的特征，比较简单直接的实现方法是使用二阶多项式模式进行特征组合。例如将特征 $x_i,x_j$ 的组合可以用 $x_ix_j$ 表示，当且仅当 $x_i,x_j$ 都为1时得到的组合特征才有意义。需要注意的是，原本的特征在onehot编码之后已经很稀疏了，再对特征进行两两组合，那么得到的特征就更稀疏了。

在得到特征之后，假设我们用线性模型进行预测，则预测值的表达式可能是这样的：
$\hat{y}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_i^n{\sum_{j=i+1}^n{w_{ij}x_ix_j}}$
式子中 n 代表特征数量， $w_0, w_{i}, w_{ij}$ 是模型的参数。其中组合特征参数 $w_{ij}$ 共有 $\frac{n(n-1)}{2}$ 个，需要大量的非零组合特征 $x_ix_j$ 才容易学习到合适的参数值。如何解决二次项参数 $w_{ij}$ 的学习问题？

矩阵分解提供了一种解决方法，由于特征组合后的系数可以构成对称矩阵 $W_{n \times n}$ ，因此可以对矩阵进行分解为 $W_{n\times n}=V_{n\times k}V_{n\times k}^T$ ，即 $w_{i,j}=<v_i,v_j>$ ，其中 $k\ll n$ 。于是，原本需要训练 $\times n$ 个特征，现在只需要训练 $\times k$ 个：
$\hat{y}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_{i=1}^n{\sum_{j=i+1}^n{<v_i,v_j>x_ix_j}} \\ <v_i,v_j>=\sum_{f=1}^k{v_{if}v_{jf}}$
次数计算的时间复杂度为 $O(kn^2)$ ，能不能进一步优化一下？注意到 $\sum_{i=1}^n{\sum_{j=i+1}^n{<v_i,v_j>x_ix_j}}$ 实际上只是矩阵 $W_{n \times n}$ 中不包含对角线的上三角的部分，可以用 $W_{n \times n}$ 减去对角线元素后再除以2来得到：