Datewhale组队学习——深度学习推荐系统（4）

最新推荐文章于 2024-08-10 20:32:14 发布

新火之光

最新推荐文章于 2024-08-10 20:32:14 发布

阅读量129

点赞数

文章标签：深度学习推荐系统

本文链接：https://blog.csdn.net/qq_45878378/article/details/115171073

版权

深度学习推荐系统（4）

模型背景
模型结构
- F（x）各层解析
论文补充
- 相比FM
- 相比DeepCross
参考资料

模型背景

web应用程序的变量大部分是离散的、非连续的。在稀疏的数据中建立模型，需要挖掘出特征之间的关联。很多成功的算法依靠手动进行特征组合，这类做法的缺点是成本很高，需要依靠大量人力进行设计，难以推广。因此，解决方案是设计专门自动学习特征的模型，代表模型FM。但FM本身基于线性模型，性能有限，所以需要更复杂的模型，于是，作者提出了NFMs。

模型结构

NFM的表达式：
$\hat{y}{N F M}(\mathbf{x})=w{0}+\sum_{i=1}^{n} w_{i} x_{i}+f(\mathbf{x})$

对比FM表达式
$w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n}\sum_{i+1}^n\lt v_i,v_j\gt x_ix_j$

从表达式来看，前两项基本一致，都是线性回归，区别在于第三部分的表达式，也就是 $f (x)$ 部分，这也是NFM核心部分。

$f (x)$ 的具体结构如下图所示

NFM网络结构（一阶线性回归部分未包括）
在这里插入图片描述

F（x）各层解析

Embedding Layer

Embedding层是一个全连接层,本身结构和作用与之前相似，把稀疏向量转化成稠密向量。

假设 $\mathbf{v}{\mathbf{i}} \in \mathbb{R}^{k}$ 为第 $i$ 个特征的embedding向量，那么 $\mathcal{V}{x}=\left\{x_{1} \mathbf{v}{1}, \ldots, x{n} \mathbf{v}_{n} \right\}$ （ $x_{i}\neq0$ ）表示的下一层的输入特征。

Bi-Interaction 层

NFM区别FM的核心。作用是将Embedding向量转换为一个向量.

假设 $\mathcal{V}_{x}$ 是所有特征embedding的集合，那么在特征交叉池化层的操作：

$f_{B I}\left(\mathcal{V}{x}\right)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}{i} \odot x{j} \mathbf{v}_{j}$

$\odot$ 表示两个向量的元素积操作，即两个向量对应维度相乘得到的元素积向量（可不是点乘呀），其中第 $k$ 维的操作： $\left(v_{i} \odot v_{j}\right){k}=\boldsymbol{v}{i k} \boldsymbol{v}_{j k}$

Bi-Interaction 层没有引入额外参数，可以在线性时间内被计算。上文公式可以被转换为下面形式
$f_{B I}\left(\mathcal{V}{x}\right)=\frac{1}{2}\left[\left(\sum_{i=1}^{n} x_{i} \mathbf{v}{i}\right)^{2}-\sum_{i=1}^{n}\left(x_{i} \mathbf{v}_{i}\right)^{2}\right]$

按照论文中的观点，可以在 $O(kN_x)$ （ $N_x$ 为 $x$ 中非零的数目）内进行Bi-Interaction。

隐藏层

这一层就是全连接的神经网络，用于学习要素的高等交互，公式如下：
$\begin{aligned} \mathbf{z}{1}=&\sigma{1}\left(\mathbf{W}{1} f{B I} \left(\mathcal{V}{x}\right)+\mathbf{b}{1}\right) \ \\ \mathbf{z}{2}=& \sigma{2}\left(\mathbf{W}{2} \mathbf{z}{1}+\mathbf{b}{2}\right) \\ &\vdots &\ \\\mathbf{z}{L}=& \sigma_{L}\left(\mathbf{W}{L} \mathbf{z}{L-1}+\mathbf{b}_{L}\right) \end{aligned}$

其中 $L$ 表示隐藏层的数量， $W1，b_l$ 和 $σ_l$ 分别表示第l层的权重矩阵，偏差矢量和激活函数。
通过选择非线性激活函数激活函数可以以非线性组合激活函数

输出层

这个就是最后一层的结果直接过一个隐藏层，： $f(\mathbf{x})=\mathbf{h}^{T} \mathbf{z}_{L}$

所以， NFM模型的前向传播过程总结如下：
$\begin{aligned} \hat{y}{N F M}(\mathbf{x}) &=w{0}+\sum_{i=1}^{n} w_{i} x_{i} \ & +\mathbf{h}^{T} \sigma_{L}\left(\mathbf{W}{L}\left(\ldots \sigma{1}\left(\mathbf{W}{1} f{B I}\left(\mathcal{V}{x}\right)+\mathbf{b}{1}\right) \ldots\right)+\mathbf{b}_{L}\right) \end{aligned}$

所有的参数 $\Theta=\lbrace w_0 \lbrace w_i, v_i \rbrace,h, \lbrace W_l, b_l \rbrace$ ,与FM相比，NFM的其他模型参数主要是 ${W_l，b_l\}$ ，用作高级交互。

论文补充

相比FM

文章提到，FM可以认为是NFM的一种特例，将 $L$ 设为0，并将Bi-Interaction池的输出直接映射到输出层，得出NFM-0

$f_{B I}\left(\mathcal{V}{x}\right)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}{i} \odot x{j} \mathbf{v}_{j} \\=w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^n\sum_{f=1}^kh_{f}v_{if}v_{jf}.x_{i}x_j$
$h$ 变为（1…1)的向量，NFM变为FM公式。

Bi-Interaction层上可以使用dropout等技巧规范FM。

相比DeepCross

DeepCross或者Wide&Deep模型不能很好处理特征间的交互，NFM可以提供特征的二阶甚至更高阶的交互。

NFM模型的时间复杂度为 $O(kN_x+\sum_{l=1}^Ld_{l-1}d_l)$ ,与DeepCross以及Wide&Deep一致。

参考资料

NFM论文
 https://github.com/datawhalechina/team-learning-rs

新火之光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datewhale组队学习——深度学习推荐系统（4）

深度学习推荐系统（4）模型背景模型结构F（x）各层解析Embedding LayerBi-Interaction 层隐藏层输出层论文补充相比FM相比DeepCross参考资料模型背景web应用程序的变量大部分是离散的、非连续的。在稀疏的数据中建立模型，需要挖掘出特征之间的关联。很多成功的算法依靠手动进行特征组合，这类做法的缺点是成本很高，需要依靠大量人力进行设计，难以推广。因此，解决方案是设计专门自动学习特征的模型，代表模型FM。但FM本身基于线性模型，性能有限，所以需要更复杂的模型，于是，作者提出了N
复制链接

扫一扫