论文笔记【Factorization Machines】

salmon1802

已于 2022-09-29 11:31:49 修改

阅读量234

点赞数

分类专栏：笔记文章标签：推荐算法

于 2022-09-27 21:07:37 首次发布

本文链接：https://blog.csdn.net/Salmon1122/article/details/127077241

版权

笔记专栏收录该内容

17 篇文章 1 订阅

订阅专栏

标题 * 表示未完成

本文模型及方法

对于一般的LR模型来说，模型形式如下：

此时为 order-1 （一阶特征），那么 order-2 如何表示呢？如下：

该 order-2 模型与 order-1 的标准LR模型相比，对每个二阶交叉特征都配备了权重 $\hat{w}$ ，难以学习，泛化能力比较弱，特别是在大规模稀疏特征场景下，问题尤为突出。
FM模型
FM模型为了解决此类问题，提出以下的模型表示。（此处以二阶为例）向量 $v_i$ ， $v_j$ 分别是特征 $x_i$ ， $x_j$ 对应的低维稠密隐向量

可以发现FM模型中包含传统的LR模型，之后将超参数 $\hat{w}$ 改写成了 $v_i$ 与 $v_j$ 的点积。即如同SVM的核函数分解那样，令 $\cdot{V^T}$
上式在论文中继续被优化

下图讲解来自知乎：正在打开传送门！
FM与MF相比
MF（矩阵分解）的思想可以被看做一个大的矩阵 R 等于两个小矩阵 $U 、 I$ 的乘积。
而矩阵分解中SVD分解方式是最具有代表性的。其方程如下。
$R = ABC^T$
R为 $\times n$ ；A为 $\times m$ ；B为 $\times n$ ；C为 $\times n$ ；

这里将 $A B$ 看做 $U$ ， $C^T$ 看做 $I$ ，即：
$R = U^TS = <U,S>$
是不是很眼熟，这就是上面所说的FM中对二阶特征建模的部分,所以可以说MF是FM的特例。

文章中指出将User与Movie矩阵看做一个矩阵，如下。

此时 $x^{(i)}$ 为一个特征，按照FM方程可以得到：

$x_i$ 为1时可以计算，其它为0时直接忽略。 $w_u$ 表示在位置 $u$ 上 $x_u$ 不为0.
这样就变成了带有偏置信息的SVD了，带有偏置信息SVD基础上加上用户历史评过分的电影ID,就是SVD++；带有偏置信息SVD基础上加上时间信息就是time-SVD。
N维FM方程