FM/FFM原理及其公式详解

最新推荐文章于 2024-07-14 17:55:32 发布

头号大眼睛

最新推荐文章于 2024-07-14 17:55:32 发布

阅读量1.2k

点赞数 1

分类专栏： FM FFM 文章标签：机器学习 ctr

本文链接：https://blog.csdn.net/ZzH7HN/article/details/108002292

版权

本文详细介绍了FM（Factorization Machines）和FFM（Field-aware Factorization Machines）模型的工作原理，强调了特征组合的重要性，并探讨了如何通过矩阵分解减少参数数量。在FFM中，考虑了特征所属字段的影响，模型更加灵活，能够捕捉更多有用信息。通过梯度下降法训练模型，FFM在处理稀疏数据时表现出优势。

摘要由CSDN通过智能技术生成

FM在特征组合中的应用

	年龄(x1)	城市(x2)	性别(x3)
用户1	23	北京	男
用户2	31	上海	女

如上述特征X有三个维度，年龄是数值型特征，城市和性别是类别型特征，在进行特征组合的使用类别型特征要onehot处理。

	x1年龄	x2北京	x3上海	x4深圳	x5男	x6女
用户1	23	1	0	0	1	0
用户2	31	0	1	0	0	1

实际上"北京的男性用户","上海的女性用户 "这种组合特征可能是有用的，即 x_i , $x_{j}$ ,( x_i ,, x_j 都是one_hot特征)同时为1可能是一个很有用的特征，这种组合特征是 x_i ,和 x_j 的线性组合无法表示的，这样一来 $x_i\ast x_j$ 就成了一个新特征，为了不错过任何一种可能有用的组合特征，我们穷尽所有的i,j的组合，把 $x_ix_j,1\leq x_i\leq n,i<j\leq n$ ,都加到特征里面去，即使其中某些 x_ix_j 不是one-hot特征或者某些 x_ix_j 不是有用的特征，都没关系，经过大量样本的训练，模型会把那些无用的特征的系数训练为0。

这样就有人提出了FM模型：

$\widehat{y}=w_{0}+\sum_{i=1}^{n}w_{i}x_{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}w_{ij}x_{i}x_{j}$
这个公式中 $w_{0}$ , $w_{i}$ , $x_{i}$ , $w_{ij}$ 都是一个数既不是向量也不是矩阵，它是在计算一个样本的预测输出， $x_{i}$ 表示某个样本在第i个特征处的值，由于二次项系数 $w_{ij}$ ，我们额外引入 $n^{2}$ /2个参数需要训练。任意两个参数都是独立的，即 $w_{ij}$ 与 $w_{jh}$ 时毫无关联的。然而在稀疏的场景下，二次项参数的训练是很困难的，其原因：每个参数 $w_{ij}$ 的训练需要大量 x_i 和 x_j 都为非零的样本(因为只有一条样本中 $x_{j}$ 或者 x_j 等于0,那么对应的 $w_{ij}\ast 0=0$ ,那么该二次项就不存在了，永远无法训练该参数)，由于样本数据本来就稀疏，满足 x_ix_j 不为了0的样本非常少，训练样本不足，很容易导致参数 $w_{ij}$ 不准。