【每周一文】Factorization Machines

最新推荐文章于 2024-07-12 17:35:14 发布

下一步

最新推荐文章于 2024-07-12 17:35:14 发布

阅读量2.3k

点赞数

分类专栏： ML 每周一文文章标签： FM 矩阵分解 MF 特征交叉

本文链接：https://blog.csdn.net/fangqingan_java/article/details/50677340

版权

ML 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

每周一文

15 篇文章 2 订阅

订阅专栏

概述

在使用线性模型，例如LR模型时，特征工程是很大一块工作，有时为了产生较好的效果需要人工进行一些特征的二维或者三维交叉。FM（Factorization machines）提供了一种思路可以自动进行特征交叉，同时能够处理非常稀疏数据，线性时间复杂度，计算简单。
由于FM实现简单效果非常好，而且应用范围非常广，FM是近期非常火的技术，在比赛或者大公司都非常常见。

FM

FM优势

在正式介绍FM之前，首先介绍一下FM能够解决问题以及优点：
1. FM能够解决分类和回归问题
2. FM能够代替SVD、SVD++等进行矩阵分解
3. FM可以处理非常稀疏数据，此时SVM等模型会失效
4. FM线性时间复杂度，计算简单
5. FM可表示性较强，FM将模型参数表示为K维向量，向量之间可以交叉运算，即使两个交叉特征没有对应训练数据，也能表示出权重。

2维-FM模型

模型表示

对于2次特征交叉的FM模型可以表示为

y (x) = w 0 + \sum i = 1 n (w i x i) + \sum i = 1 n \sum j = i + 1 n (< v i, v j > x i x j)

$y(x)=w_0+\sum_{i=1} ^n(w_i x_i)+\sum_{i=1}^n \sum_{j=i+1}^n(<v_i,v_j>x_ix_j)$ 其中模型参数有

w0 $w_0$ 为截距，

wi $w_i$ 为一维特征权重,

vi $v_i$ 为每一维度特征的分布式表示。
其中特征交叉权重计算为

< v i, v j > = \sum f = 1 k v i, f v j, f

模型计算优化

在整个模型中，计算复杂度比较高的是最后一项，优化如下

\sum i = 1 n \sum j = i + 1 n (< v i, v j > x i x j) = 1 2 \sum i = 1 n \sum j = 1 n (< v i, v j > x i x j) - 1 2 \sum i = 1 n < v i, v i > x i x i = 1 2 (\sum i = 1 n \sum j = 1 n \sum f = 1 k (v i, f v j f x i x j) - \sum i = 1 n \sum f = 1 k (v i, f v i, f x i x i)) = 1 2 \sum f = 1 k ((\sum i = 1 n v i, f x i) (\sum j = 1 n v j, f x j) - \sum i = 1 n v 2 i, f x 2 i) = 1 2 \sum f = 1 k ((\sum i = 1 n v i, f x i) 2 - \sum i = 1 n v 2 i, f x 2 i)

$\begin{align} \sum_{i=1}^n \sum_{j=i+1}^n(<v_i,v_j>x_ix_j) &= \frac12 \sum_{i=1}^n \sum_{j=1}^n(<v_i,v_j>x_ix_j) - \frac12 \sum_{i=1}^n<v_i,v_i>x_ix_i\\ & =\frac12(\sum_{i=1}^n \sum_{j=1}^n\sum_{f=1}^k(v_{i,f}v_{j_f}x_ix_j)-\sum_{i=1}^n\sum_{f=1}^k(v_{i,f}v_{i,f}x_ix_i)) \\ & = \frac12\sum_{f=1}^k((\sum_{i=1}^nv_{i,f}x_i)(\sum_{j=1}^nv_{j,f}x_j)-\sum_{i=1}^nv_{i,f}^2x_i^2) \\ & = \frac12\sum_{f=1}^k((\sum_{i=1}^nv_{i,f}x_i)^2-\sum_{i=1}^nv_{i,f}^2x_i^2) \end{align}$
相当于特征分布式表示中每一维度和特征进行求和平方和平方求和相减。

模型计算

采用SGD进行模型计算

\partial \partial θ y (x) = ⎧ ⎩ ⎨ ⎪ ⎪ 1, x i, x i \sum n j = 1 v j, f x j - v i, f x 2 i, if θ is w_0 if θ is w_i if θ is v i, f

$\frac {\partial}{\partial \theta} y(x) = \begin{cases} 1, & \text{if $\theta$ is w_0} \\ x_i, & \text{if $\theta$ is w_i} \\ x_i\sum_{j=1}^nv_{j,f}x_j-v_{i,f}x_i^2, & \text{if $\theta$ is $v_{i,f}$} \end{cases}$