Task4 NFM

最新推荐文章于 2023-09-07 22:51:23 发布

Riccca

最新推荐文章于 2023-09-07 22:51:23 发布

阅读量106

点赞数

分类专栏：推荐文章标签：深度学习

本文链接：https://blog.csdn.net/Riccca/article/details/115192092

版权

推荐专栏收录该内容

4 篇文章 0 订阅

订阅专栏

NFM
模型局限
传统的FM模型仅局限于线性表达和二阶交互，作者提出一种将FM融合进DNN的策略，组合了FM的建模低阶特征交互能力和DNN学习高阶特征交互和非线性的能力，形成了深度学习时代的神经FM模型(NFM)

$\hat{y}{N F M}(\mathbf{x})=w{0}+\sum_{i=1}^{n} w_{i} x_{i}+f(\mathbf{x})$
改进的思路就是用一个表达能力更强的函数来替代原FM中二阶隐向量内积的部分。神经网络可以充当。
在这里插入图片描述

1 input和embedding层

把稀疏离散特征处理成稠密低维的，先one-hot,再通过embedding

2 Bi-Interaction Pooling layer

在Embedding层和神经网络之间加入了特征交叉池化层是本网络的核心创新(PNN加的是product_layer)
$f_{B I}\left(\mathcal{V}{x}\right)=\sum{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}{i} \odot x{j} \mathbf{v}_{j}$

其中第 $k$ 维的操作： $\left(v_{i} \odot v_{j}\right){k}=\boldsymbol{v}{i k} \boldsymbol{v}_{j k}$

一定要注意这个地方不是两个隐向量的内积，而是元素积，也就是这一个交叉完了之后k个维度不求和，最后会得到一个 $k$ 维向量

Bi-Interaction层不需要额外的模型学习参数，更重要的是它在一个线性的时间内完成计算，和FM一致的，即时间复杂度为 $O\left(k N_{x}\right)$ ， $N_x$ 为embedding向量的数量。

3 隐藏层
公式如下： $\begin{aligned} \mathbf{z}{1}=&\sigma{1}\left(\mathbf{W}{1} f{B I} \left(\mathcal{V}{x}\right)+\mathbf{b}{1}\right) \ \mathbf{z}{2}=& \sigma{2}\left(\mathbf{W}{2} \mathbf{z}{1}+\mathbf{b}{2}\right) \ \ldots \ldots \ \mathbf{z}{L}=& \sigma_{L}\left(\mathbf{W}{L} \mathbf{z}{L-1}+\mathbf{b}_{L}\right) \end{aligned}$

sigma是激活函数，不是sigmoid

4 预测层
NFM模型的前向传播过程总结如下： $\begin{aligned} \hat{y}{N F M}(\mathbf{x}) &=w{0}+\sum_{i=1}^{n} w_{i} x_{i} \ &+\mathbf{h}^{T} \sigma_{L}\left(\mathbf{W}{L}\left(\ldots \sigma{1}\left(\mathbf{W}{1} f{B I}\left(\mathcal{V}{x}\right)+\mathbf{b}{1}\right) \ldots\right)+\mathbf{b}_{L}\right) \end{aligned}$

实现了FM和DNN的无缝连接, 也会用到像Dropout和BatchNormalization这样的技术来缓解过拟合和在过大的改变数据分布。

1 linear part: 这部分是有关于线性计算，也就是FM的前半部分 $w 1 x 1 + w 2 x 2 . . . w n x n + b$ 的计算。我们用了一个get_linear_logits函数实现，得到linear的输出
2 dnn part: 这部分是后面交叉特征的那部分计算，FM的最后那部分公式f(x)。这一块主要是针对离散的特征，这个计算我们用了get_bi_interaction_pooling_output函数实现，得到输出之后又过了DNN网络，最后得到dnn的输出