因子分解机公式推导（Factorization Machine）

最新推荐文章于 2022-05-04 20:04:42 发布

naive_zhang

最新推荐文章于 2022-05-04 20:04:42 发布

阅读量716

点赞数

分类专栏： machine_learning

本文链接：https://blog.csdn.net/naive_zhang/article/details/103437691

版权

machine_learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基本定义

在逻辑回归的分类公式中，传入给sigmoid函数的参数是特征的线性组合，计算如公式1所示。该公式的不足之处是没有考虑特征间的相互作用，而特征的相互作用（即特征交叉）是很重要的，例如在CTR预估场景，性别和购买行为就有很强的关联性，女性更愿意购买化妆品，而男性更愿意购买运动产品。为了考虑特征的相互作用，因子分解机（Factorization Machine，简称FM）显示地对两两特征交叉进行建模，计算如公式2所示。
$\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i \tag{1} \end{aligned}$

$\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n w_{ij} x_i x_j \tag{2} \end{aligned}$

对于离散特征而言，特征通常通过one-hot进行编码，one-hot编码后样本变得很稀疏，其中很多特征的取值为0，取值为1的特征只占很少部分。对于这样的样本，在学习交叉特征的权重 $w_{ij}$ 时会变得困难，例如当样本的特征 $x_i$ 和特征 $x_j$ 取值为0时，权重 $w_{ij}$ 无法学习。为了更好的学习交叉特征的权重，需要对权重矩阵分解，分解后权重 $w_{ij}$ 可以表示为两个隐向量的内积，计算如公式3所示。

$\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n <\mathbf v_i,\mathbf v_j>x_i x_j \tag{3} \end{aligned}$

其中隐向量 $\mathbf v_i$ 可以表示为 $\mathbf v_i$ =( $v_{i,1}$ , $v_{i,2}$ ,…, $v_{i,k}$ )，k为隐向量的维度，进一步可以得到因子分解机(FM)的计算公式。

$\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \sum_{t=1}^k v_{i,t} v_{j,t} x_i x_j \tag{4} \end{aligned}$

数学推导

首先公式4中的交叉项可以推导简化，具体推导过程如下：

$\begin{aligned} \sum_{i=1}^n \sum_{j=i+1}^n <\mathbf v_i,\mathbf v_j> x_i x_j & = \frac 12 (\sum_{i=1}^n\sum_{j=1}^n <\mathbf v_i,\mathbf v_j>x_i x_j -\sum_{i=1}^n<\mathbf v_i,\mathbf v_i> x_i x_i) \\ & =\frac 12 (\sum_{i=1}^n \sum_{j=1}^n \sum_{t=1}^k v_{i,t} v_{j,t} x_i x_j-\sum_{i=1}^n \sum_{t=1}^k v_{i,t} v_{i,t} x_i x_i) \\ & = \frac 12 \sum_{t=1}^k(\sum_{i=1}^n \sum_{j=1}^n v_{i,t} v_{j,t} x_i x_j-\sum_{i=1}^n v_{i,t} v_{i,t} x_i x_i) \\ & = \frac 12 \sum_{t=1}^k \Biggl((\sum_{i=1}^n v_{i,t}x_i)( \sum_{j=1}^nv_{j,t}x_j)-\sum_{i=1}^n v_{i,t}^2x_i^2\Biggr) \\ & =\frac 12 \sum_{t=1}^k\Biggl((\sum_{i=1}^n v_{i,t}x_i)^2-\sum_{i=1}^n v_{i,t}^2x_i^2\Biggr) \end{aligned}$

为了求得最优的参数 $w_i$ 和 $v_{i,t}$ ，可以应用随机梯度下降算法对参数求偏导数，具体的推导公式如下：

$\frac{\partial y(\mathbf x)}{\partial \theta}=\begin{cases} 1 & if \theta=w_0\\ x_i & if \theta=w_i\\ x_i\sum_{i=1}^nv_{i,t}x_i- v_{i,t}x_i^2 & if \theta=v_{i,t} \end{cases}$

将求得的偏导带入梯度下降公式，可以得到参数 $\theta$ 的更新公式如下：

$\begin{aligned} \theta:= \theta - \alpha \frac{\partial y(\mathbf x)}{\partial \theta}\tag{5} \end{aligned}$

代码实现

相关代码实现后面统一发布到github上面。

naive_zhang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
因子分解机公式推导（Factorization Machine）

基本定义在逻辑回归的分类公式中，传入给sigmoid函数的参数是特征的线性组合，计算如公式1所示。该公式的不足之处是没有考虑特征间的相互作用，而特征的相互作用（即特征交叉）是很重要的，例如在CTR预估场景，性别和购买行为就有很强的关联性，女性更愿意购买化妆品，而男性更愿意购买运动产品。为了考虑特征的相互作用，因子分解机（Factorization Machine，简称FM）显示地对两两特征交叉进...
复制链接

扫一扫