FM详解

最新推荐文章于 2021-02-23 13:28:43 发布

VIP文章不困先生说

最新推荐文章于 2021-02-23 13:28:43 发布

阅读量854

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/yuanninesuns/article/details/111299770

版权

1. 基本概念

常见的线性表达式如下：

$y=\omega_0 + \sum^{n}_{i=1}\omega_ix_i$

其中 $\omega_0$ 为初始权值，或者理解为偏置项， $\omega_i$ 为每个特征 $x_i$ 对应的权值。可以看到，这种线性表达式只描述了每个特征与输出的关系。FM的表达式如下，可观察到，只是在线性表达式后面加入了新的交叉项特征及对应的权值。

$y=\omega_0 + \sum^{n}_{i=1}\omega_ix_i+\sum^{n-1}_{i=1}\sum^n_{j=i+1}\omega_{ij}x_ix_j$

上面公式中， $n$ 代表特征数量， $x_i$ 是第i个特征得值， $\omega$ 是模型权重，从公式来看，模型得前半部分就是普通得LR线性组合，后半部分是交叉项：特征得组合。单单从模型的能力上讲，FM的表达能力强于LR，当交叉项参数全部为0得时候退化为普通得LR模型。从公式中，我们可以看出组合特征得参数一共有 $\frac{1}{2n(n-1)}$ 个，任意两个参数都是独立的。然而在数据稀疏性普遍存在的实际场景中，二次项参数的训练是很困难的。原因是：每个参数 $\omega_{ij}$ 的训练都需要大量 $x_i$ 和 $x_j$ 都非零的样本；由于样本数据本来就比较稀疏，满足 $x_i$ ， $x_j$ 都非零的样本将会非常的少。训练样本不足，很容易导致参数 $w_{ij}$ 不准确，最终将严重影响模型的性能。

矩阵分解提供了一种解决数据稀疏性的思路。在基于模型的协同过滤中，一个评分矩阵可以分解为user矩阵和item矩阵，每个user 和item都可以采用一个隐向量表示。这里，采用的方法是：给每个特征分量 $x_i$ ，引入一个辅助向量 $v_i=(v_1,v_2,.......v_k)$ ，然后利用 $v_i*v_j$ 对交叉项的系数 $w_{ij}$ 进行估计（为什么可以这样估计还存在疑问），即 $\omega_{ij}=\left<v_i,v_j\right>=\sum^k_{f=1}v_{i,f} \cdot v_{j,f}$ 。

在这种情况下，我们只需要求出特征分量 $x_i$ 的辅助向量 $vi=(v_1,v_2,.......v_k)$

最低0.47元/天解锁文章

不困先生说

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
FM详解

1. 基本概念常见的线性表达式如下：y=ω0+∑i=1nωixiy=\omega_0 + \sum^{n}_{i=1}\omega_ix_iy=ω0+i=1∑nωixi其中ω0\omega_0ω0为初始权值，或者理解为偏置项，ωi\omega_iωi为每个特征xix_ixi对应的权值。可以看到，这种线性表达式只描述了每个特征与输出的关系。FM的表达式如下，可观察到，只是在线性表达式后面加入了新的交叉项特征及对应的权值。y=ω0+∑i=1nωixi+∑i=1n−1∑j=i+1nωijxi
复制链接

扫一扫