FM模型理论之---矩阵形式解读

最新推荐文章于 2021-06-30 17:17:00 发布

csuyhb

最新推荐文章于 2021-06-30 17:17:00 发布

阅读量726

点赞数 1

文章标签： FM 因子分解机

本文链接：https://blog.csdn.net/csuyhb/article/details/100575149

版权

问题描述

本文不解释FM模型，仅仅通过向量以及矩阵的形式解释FM模型的理论推导。网络上大部分的推导都是以元素级别的推导，过程显得臃肿。这里将以矩阵和向量的形式解释其偏导数的推导。多项式模型中，特征 $x_i$ 与 $x_j$ 的组合用 $x_ix_j$ 表示。为了简单起见，我们讨论二阶多项式模型。具体的模型表达式如下（仅讨论二项式部分）：
$\mathop{\Sigma}\limits_{i=1}^{n-1}\ \mathop{\Sigma}\limits_{j=i+1}^{n}w_{ij}\cdot x_i\cdot x_j$
若令 $W=V^T \cdot V$ ，其中 $V_{[k\times n]}=[V_1,V_2,\cdots,V_n],V_i为shape等于[k,1]$ 的列向量。 $w_{ij}$ 即为 $W_{[n \times n]}$ 矩阵的元素。同时令列向量 $\xi = [x_1,\cdots,x_n]^T$ 。现在我们的目标是寻找 $V$ 的偏导数？
注意 $w_{ij}$ 为 $W$ 矩阵的上半区的元素，并且不含有斜对角线上的元素：
$\therefore L = \frac{1}{2}\xi^T V^T V \xi- \frac{1}{2} \mathop{\Sigma}\limits_{i=1}^{n}x_iV_i^TV_ix_i$

推导过程

令：
$\left\{ \begin{aligned} L_1 &= \frac{1}{2}\xi^T V^T V \xi\\ L_2 &= \frac{1}{2} \mathop{\Sigma}\limits_{i=1}^{n}x_iV_i^TV_ix_i \end{aligned} \right.$
则：
$\begin{aligned} \frac{\partial L_1}{\partial V}&= \frac{\partial L_1}{\partial (V\xi)}\cdot \frac{\partial V\xi}{\partial V}\\ &=V\xi\cdot\xi^T \end{aligned}$
同时
$\frac{\partial L_2}{\partial V_i}= V_i x_i^2$
$\therefore\frac{\partial L_2}{\partial V}= [V_1 x_1^2,\cdots V_i x_i^2\cdots,V_n x_n^2]$
最终结果为：
$\therefore\frac{\partial L}{\partial V}= V\xi\cdot\xi^T-[V_1 x_1^2,\cdots V_i x_i^2\cdots,V_n x_n^2]$

总结

其实一共就仅用了实数对向量求偏导和对矩阵求偏导的知识。本文不做这两个方面的推导，可以参考偏导数链式法则。

后续

上面的内容是个人能力范围内最简化的推导过程了，但是整个流程下来还是觉得不够过瘾，因为在求 ${\partial L_2}/{\partial V}$ 时不免俗的将矩阵 $V$ 拆开求对向量 $V_i$ 的偏导，然后再组合为对 $V$ 的偏导。下面使用矩阵的方法求偏导，不过反而将问题复杂化了（目的还是在于验证直接通过对矩阵求偏导方法的可行性）。
构造：
$\left[ \begin{matrix} x_1 & 0 &\cdots & 0 \\ 0 & x_2 &\cdots & 0 \\ \vdots \\ 0 &\cdots &0 & x_n \end{matrix} \right] _{n\times n}$
$\begin{aligned} \therefore L_2 &= \frac{1}{2} \mathop{\Sigma}\limits_{i=1}^{n}x_iV_i^TV_ix_i \\ &= \frac{1}{2}Tr(XV^TVX) \qquad \because X=X^T\\ &= \frac{1}{2}Tr(X^TV^TVX) \\ \end{aligned}$
令 $Z=V\cdot X$ ，即 $L_2 = 1/2\cdot Tr(Z^TZ)$ 则：
$\frac{\partial L_2}{\partial Z}= Z$
因此:
$\begin{aligned} \frac{\partial L_2}{\partial V} &= \frac{\partial L_2}{\partial Z}\cdot \frac{\partial Z}{\partial V}\\ &= Z\cdot X^T \qquad \because X=X^T\\ &= Z\cdot X \\ &= V\cdot X^2 \end{aligned}$
非常接近结论了， $X$ 为对角阵，对角线上的元素为 $\xi$ 中的变量 $x_i$ 。 $X^2$ 也为对角阵，用其右乘矩阵 $V$ ,相当于对矩阵的列向量的乘法操作。
$V\cdot X^2 = [V_1,V_2,\cdots,V_n]\cdot X^2 = [V_1 x_1^2,\cdots V_i x_i^2\cdots,V_n x_n^2]$
可见如果写成矩阵形式：
$\therefore\frac{\partial L}{\partial V}= V\xi\cdot\xi^T- V\cdot X^2$

csuyhb

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
FM模型理论之---矩阵形式解读

本文不解释FM模型，仅仅通过向量以及矩阵的形式解释FM模型的理论推导。网络上大部分的推导都是以元素级别的推导，过程显得臃肿。这里将以矩阵和向量的形式解释其偏导数的推导。多项式模型中，特征xix_ixi与xjx_jxj的组合用xixjx_ix_jxixj表示。为了简单起见，我们讨论二阶多项式模型。具体的模型表达式如下（仅讨论二项式部分）：L=Σi=1n−1 Σj=i+1nwi...
复制链接

扫一扫