FM之TensorFlow矩阵形式的训练

最新推荐文章于 2023-08-11 02:58:13 发布

冰鋒

最新推荐文章于 2023-08-11 02:58:13 发布

阅读量486

点赞数

分类专栏：推荐系统机器学习文章标签：数据挖掘推荐系统 tensorflow

本文链接：https://blog.csdn.net/lmm6895071/article/details/105158101

版权

机器学习同时被 2 个专栏收录

15 篇文章 3 订阅

订阅专栏

推荐系统

7 篇文章 0 订阅

订阅专栏

文章目录

1. FM简单推导

FM （factor machine）算法是有监督的机器学习算法，可以用来分类和回归，一般用来做CTR预估。FM算法的亮点是提出了一种n个特征组合的方式：
$\hat y =w_0 +\sum_{i=1}^{n} w_1x+\sum_{i=1}^{n-1} \sum_{j=i+1}^{n}W_{i,j}x_ix_j$
为了防止过拟合，减少参数个数，将对称矩阵 $W\in R^{n \times n}$ 降维，即 $W=VV^T, V\in R^{n \times k}$ , 上式可以变为:
$\hat y =w_0 +\sum_{i=1}^{n} w_1x+\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} <V_i,V_j>x_ix_j$
根据 $(a+b+c)^2=a^2+b^2+c^2+2(ab+ac+bc)\\ ab+bc+ac=\frac{1}{2}\{(a+b+c)^2-(a^2+b^2+c^2)\}$ 二阶项可以进一步化简为：
$\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} <V_i,V_j>x_ix_j\\ = \frac{1}{2}\{\sum_{i=1,j=1}^{n}<V_i,V_j>x_ix_j-\sum_{i=1}^n<V_i,V_i>x_ix_i\}\\ =\frac{1}{2}\left(\sum_{i=1}^{n}\sum_{j=1}^n\sum_{h=1}^{k}v_{ih}v_{jh} x_ix_j - \sum_{i=1}^n\sum_{h=1}^{k}v_{ih}^2x_i^2 \right )\\ =\frac{1}{2}\sum_{h=1}^k\left( \sum_{i=1}^n\sum_{j=1}^n v_{i,h}v_{j,h}x_ix_j-\sum_{i=1}^nv_{i,h}^2x_i^{2} \right)\\ =\frac{1}{2}\sum_{h=1}^k\left( \left( \sum_{i=1}^nv_{i,h}x_i\right) \left( \sum_{j=1}^nv_{j,h}x_j\right)-\sum_{i=1}^n\left(v_{i,h}x_i\right)^2\right)\\ =\frac{1}{2}\sum_{h=1}^k\left( \left( \sum_{i=1}^nv_{i,h}x_i\right)^2 -\sum_{i=1}^n\left(v_{i,h}x_i\right)^2\right)$
因此，可以化简为和的平方-平方和的形式。

2. 矩阵形式

这里，我们使用 $\vec{x}\in R^{1\times n}$ 表示单样本向量， $X$ 表示批处理样本，其每一行是一个向量 $\vec{x}$ ， $X\in R^{b\times n}$ 。

因此单样本形式为：

$\sum_{h=1}^k \left( \sum_{i=1}^nv_{i,h}x_i\right)^2=\vec{x}VV^T\vec{x}^T$
$\sum_{h=1}^k \sum_{i=1}^n\left(v_{i,h}x_i\right)^2=\left[\left(\vec{x} \odot\vec{x} \right)\left(V\odot V\right )\right].sum(axis=1)$
即
$\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} <V_i,V_j>x_ix_j\\ =\frac{1}{2}\left(\vec{x}VV^T\vec{x}^T-\left[\left(\vec{x} \odot\vec{x} \right)\left(V\odot V\right )\right].sum(axis=1) \right)$

批处理形式：
$\sum_{f=1}^b \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} <V_i,V_j>x_ix_j\\ =\frac{1}{2}\left[ (XV) \odot (XV)-\left(X \odot X \right)\left(V\odot V\right ) \right].sum(axis=1)$