因子分解机_因子分解机器(fm)-CSDN博客

本文链接：https://blog.csdn.net/qq_24569101/article/details/78735610

FM(Factorization Machine)

模型描述

在点击率预估等任务中，10维的类别型特征做onehot编码后变成1000维特征，绝大多数特征取值为0，即特征稀疏。然后，某些稀疏特征经过关联得到的关联特征，例如“化妆品”类商品和“女”性，与label之间的相关性会提高。因此对于一个具有n个特征的样本，模型表示

y^= w 0 + \sum i = 0 n w i x i + \sum i = 1 n - 1 \sum j = i + 1 n v i j x i x j

$\hat{y}=w_0+\sum_{i=0}^n w_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^nv_{ij}x_ix_j$
但是

xi $x_i$ 和

xj $x_j$ 本来就很多为0，

xixj $x_ix_j$ 就更多为0，而有

n(n−1)2 $\frac{n(n-1)}{2}$ 个

vij $v_{ij}$ 要训练，因此训练样本的不足很容易导致

vij $v_{ij}$ 不准确。在

W=VVT $W=VV^T$ ，其中

W∈Rn×n $W \in R^{n \times n}$ ，

V∈Rn×K $V \in R^{n \times K}$ 的启发下，模型变成

y^= w 0 + \sum i = 0 n w i x i + \sum i = 1 n - 1 \sum j = i + 1 n < v i, v j > x i x j

$\hat{y}=w_0+\sum_{i=0}^n w_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n<v_i,v_j>x_ix_j$
其中，

xi∈R $x_i \in R$ ，代表样本

x $x$ 第

i $i$ 维特征取值；

vi∈R1×K,i∈{1,2,…,n} $v_i \in R^{1 \times K},i\in \{1,2,\dots ,n \}$ ，代表特征

i $i$ 对应的隐向量，即模型可表示为

y^= w 0 + \sum i = 0 n w i x i + \sum i = 1 n - 1 \sum j = i + 1 n (v i x i) (v j x j) T

$\hat{y}=w_0+\sum_{i=0}^n w_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n(v_ix_i)(v_jx_j)^T$
模型的参数共有

1+n+n×K $1+n+n \times K$ 个，而所有第

{j|xixj≠0} $\{j|x_ix_j \neq 0\}$ 维特征都可以用来训练

vi $v_i$ ，很大程度上避免了数据稀疏性的影响。

模型求解

对于回归问题，优化目标是MSE(Mean Square Error)时，对N个训练样本，优化问题描述为

m i n J (θ) = 1 N \sum i = 1 N (y i - y^i) 2

$min \ J(\theta)=\frac{1}{N}\sum_{i=1}^{N}(y_i-\hat{y}_i)^2$
由于点击率预估的问题中，样本数量很大，因此采用随机梯度下降方法。优化目标变成在第

i $i$ 次迭代中，让当前样本的

J(θ) $J(\theta)$ 最小

m i n J (θ) = (y i - y^i) 2

$min \ J(\theta)=(y_i-\hat{y}_i)^2$
迭代方程

θ i = θ i - 1 - α \partial J ( θ ) \partial θ

$\theta_i=\theta_{i-1}- \alpha \frac{ \partial{J(\theta)}}{ \partial{\theta}}$
其中

\partial J ( θ ) \partial θ = - 2 (y i - y^i) \partial y ^ i \partial θ

$\frac{\partial{J(\theta)}}{\partial \theta}=-2(y_i-\hat{y}_i)\frac{\partial{\hat{y}_i}}{\partial \theta}$
而

\partial y ^ \partial θ = ⎧ ⎩ ⎨ ⎪ ⎪ 1 x i x i \sum n j = 1 v j k x j - v i k x 2 i θ = w 0 θ = w i θ = v i k

$\frac{ \partial{\hat{y}}}{ \partial \theta}= \begin{cases} 1 & \theta=w_0\\ x_i & \theta=w_i\\ x_i\sum_{j=1}^nv_{jk}x_j-v_{ik}x_i^2 & \theta=v_{ik} \end{cases}$
其中

i $i$ 代表第

i $i$ 维特征，

j $j$ 代表第

j $j$ 维特征，

vik $v_{ik}$ 代表第

i $i$ 维特征的隐向量

vi $v_i$ 的第

k $k$ 维取值。

虽然直观求解

\partial y ^ \partial v i = \sum i = 1 n - 1 \sum j = i + 1 n x i x j v T j

$\frac{\partial{\hat{y}}}{\partial{v_i}}=\sum_{i=1}^{n-1}\sum_{j=i+1}^n x_i x_j v_j^T$
复杂度为

O(Kn2) $O(Kn^2)$ ，但是

\sum i = 1 n - 1 \sum j = i + 1 n (v i x i) (v j x j) T = 1 2 (\sum i = 1 n v i x i) (\sum i = 1 n v i x i) T - 1 2 \sum i = 1 n x 2 i v i v T i

$\sum_{i=1}^{n-1}\sum_{j=i+1}^n(v_ix_i)(v_jx_j)^T =\frac{1}{2}(\sum_{i=1}^{n}v_ix_i)(\sum_{i=1}^{n}v_ix_i)^T-\frac{1}{2}\sum_{i=1}^n x_i^2 v_i v_i^T$
因此