【推荐系统】FM，FFM和DeepFM

最新推荐文章于 2024-04-23 17:36:06 发布

布纸所云

最新推荐文章于 2024-04-23 17:36:06 发布

阅读量421

点赞数

分类专栏：推荐系统文章标签：深度学习

本文链接：https://blog.csdn.net/XindiOntheWay/article/details/106558555

版权

推荐系统专栏收录该内容

10 篇文章 3 订阅

订阅专栏

FM (Factorization Machines)

假设有 $n$ 个特征：

多项式模型
$y(x)=w_0+\sum_{i=1}^{n}w_ix_i + \sum_{i=1}^{n}\sum_{j=i+1}^{n}w_iw_jx_ix_j$
其中， $n$ 代表样本的特征数量， $x_i$ 是第 $i$ 个特征的值， $w_0,w_i,w_j$ 是模型参数。

组合特征的参数一共有 $n (n - 1) / 2$ 个，任意两个参数都是独立的
在数据稀疏性普遍存在的实际应用场景中，二次项参数的训练是很困难的
- 其原因是，每个参数 $w_{ij}$ 的训练需要大量 $x_i$ 和 $x_j$ 都非0的样本；由于样本数据本来就比较稀疏，满足 $x_i$ 和 $x_j$ 都非0 的样本将会非常少。训练样本的不足，很容易导致参数 $w_{ij}$ 不准确，最终将严重影响模型的性能。

FM model
$y(x)=w_0+\sum_{i=1}^{n}w_ix_i + \sum_{i=1}^{n}\sum_{j=i+1}^{n}<v_i,v_j>x_ix_j$

所有二次项系数组成一个对称阵 $W$
利用矩阵分解：
- $\approx V^TV,W\in R^{n\times n} ,V\in R^{k \times n}$
- $w_{ij}=<v_i,v_j>=\sum_{f=1}^{k}v_{if}v_{jf}$
- $v_i$ 是第 $i$ 维特征的隐向量， $⟨ \cdot, \cdot ⟩$ 代表向量点积，隐向量的长度为 $k （ k < < n)$ ，包含 $k$ 个描述特征的因子
- 二次项的参数数量减少为 $k n$ 个，远少于多项式模型的参数数量
- 参数因子化使得 $x_hx_i$ 的参数和 $x_ix_j$ 的参数不再是相互独立的，因此我们可以在样本稀疏的情况下相对合理地估计 $F M$ 的二次项参数。
  - $x_hx_i$ 和 $x_ix_j$ 的系数分别为 $v_h,v_i⟩$ 和 $v_i,v_j⟩$ ，它们之间有共同项 $v_i$ 。也就是说，所有包含 “ $x_i$ 的非零组合特征”（存在某个 $j \neq = i$ ，使得 $x_ix_j≠0$ ）的样本都可以用来学习隐向量 $v_i$ ，这很大程度上避免了数据稀疏性造成的影响
  - 而在多项式模型中， $w_{hi}$ 和 $w_{ij}$ 是相互独立的

直观上看FM的算法复杂度是 $O(kn^2)$ ，但是通过公式转换，可以将复杂度优化到 $O (k n)$ ，具体如下：
$ab+bc+ac=\frac{1}{2}((a+b+c)^2-(a^2+b^2+c^2))$
$\begin{aligned} \sum_{i=1}^{n}\sum_{j=i+1}^{n}<v_i,v_j>x_ix_j &= \frac{1}{2} (\sum_{i=1}^{n}\sum_{j=1}^{n}<v_i,v_j>x_ix_j-\sum_{i=1}^{n}<v_i,v_i>x_ix_i) \\ &= \frac{1}{2}(\sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{f=1}^{k}v_{if}v_{jf}x_ix_j-\sum_{i=1}^{n}\sum_{f=1}^{k}v_{if}v_{if}x_ix_i)\\ &=\frac{1}{2}(\sum_{f=1}^{k}(\sum_{i=1}^{n}v_{if}x_i\sum_{j=1}^{n}v_{jf}x_j-\sum_{i=1}^{n}v_{if}^2x_i^2))\\ &=\frac{1}{2}(\sum_{f=1}^{k}((\sum_{i=1}^{n}v_{if}x_i)^2-\sum_{i=1}^{n}v_{if}^2x_i^2)) \end{aligned}$
FM模型可以表达为：
$y(x)=w_0+\sum_{i=1}^{n}w_ix_i + \frac{1}{2}(\sum_{f=1}^{k}((\sum_{i=1}^{n}v_{if}x_i)^2-\sum_{i=1}^{n}v_{if}^2x_i^2))$
利用 $S G D$ :
$\begin{aligned} \frac{\partial{y}}{\partial{w_0}}&=1\\ \frac{\partial{y}}{\partial{w_i}}&=x_i \\ \frac{\partial{y}}{\partial{v_{if}}}&=\frac{1}{2} \frac{\partial{(\sum_{f=1}^{k}[(\sum_{i=1}^{n}v_{if}x_i)^2-\sum_{i=1}^{n}v_{if}^2x_i^2)]}}{\partial{v_{if}}} \\ &=\frac{\partial{[ (v_{1f}x_1+v_{2f}x_2+\cdots+v_{if}x_i+\cdots+v_{nf}x_n)^2-(v_{1f}^2x_i^2+\cdots+v_{if}^2x_i^2+\cdots+v_{nf}^2x_n^2)]}}{2\partial{v_{if}}} \\ &=x_i\sum_{j=1}^{n}v_{jf}x_j-v_{if}x_i^2 \end{aligned}$

FFM (Field-aware Factorization Machines)

通过引入 field 的概念， FFM 把相同性质的特征归于同一个 field。
- 在FFM中，每一维特征 $x_i$ ，针对其它特征的每一种 field $f_j$ ，都会学习一个隐向量 $v_{i,f_j}$
- 因此，隐向量不仅与特征 $x_i$ 相关，也与 field 相关，这也是FFM中“Field-aware”的由来
- 设样本一共有 $n$ 个特征, $f$ 个 field，那么每个特征有 $f$ 个隐向量，FFM的二次项有 $n\times f$ 个隐向量
- 而在FM模型中，每一维特征的隐向量只有一个。FM 可以看作 FFM 的特例，是把所有特征都归属到一个 field 时的 FFM 模型。