推荐系统笔记7-Neural Factorization Machines for Sparse Predictive Analytics

这篇文章介绍NFM(Neural Factorization Machines for Sparse Predictive Analytics),Paper链接

具体的代码实现见Github

摘要

和FNN、PNN一样,针对类别变量One-hot以后的稀疏输入,如何做交互而引出NFM,FM可以捕捉交互(二阶特征),但是以线性方式;DNN可以捕捉非线性特征交互,如Wide & Deep,但同时深度结构使得网络不好训练;所以文章提出NFM(FM+NN),比FM要好7.3%?且结构更浅。

一、介绍

对于预测分析,比如信息检索、推荐、计算广告等,特征大多是离散和类别型的,可以将其映射为One-hot向量,然后用LR和SVM模型来处理。但是这样子会使得特征矩阵高维且稀疏,所以特征交互是一个繁杂的问题,大多是人工设计,比如(银行职员,医生)和(男,女)可以组合起来,但这样做成本过高;
所以另一种方式是从ML模型中自动学习,比如FM,将特征映射到Embedding向量,特征之间的交互通过内积来实现,但是FM仅限二阶交互;NFM可实现高阶交互+非线性特征交互;其通过设计一个新的NN中的操作-双线性交互(Bi-Interaction)池化,且这个池化层可以加深较浅的线性FM,从而提取高阶和非线性特征交互;这里提一下:FNN对于Embedding向量直接拼接起来;PNN不仅拼接,也包含另外的内积和外积操作;而这里的NFM是以Bi-Interaction来实现对于Embedding的处理。

二、MODELLING FEATURE INTERACTIONS

用GBDT手工提取组合特征会导致泛化性不好,也就是训练集没有,但是测试集有,且成本高;所以通过Embedding向量将稀疏输入映射到低微稠密空间可以泛化没有见过的特征组合,不论是什么领域,都可以将方法归为两类:1、基于FM的线性模型;2、基于NN的非线性模型。

2.1、Factorization Machines

FM是为推荐系统而提出的,其公式如下:

在这里插入图片描述
w 0 w_0 w0是全局偏差, v i T v j v_i^Tv_j viTvj代表因子交互,但是因为系数 x i x j x_ix_j xixj,所以只会考虑非0的特征向量;FM的一个强大之处在于其泛化性,但是因为FM属于多元线性模型,但是现实中的数据是非线性的且不能由线性模型精确的表示,所以FM能力不足;那么如何实现非线性建模呢?NFM通过二阶特征隐藏向量的非线性变换来实现;

2.2、 Deep Neural Networks

一开始不知如何使用DNN来处理稀疏数据,后面一些研究陆续展开:neural collaborative filtering (NCF) frameword 来学习用户和物品的交互;后面又产生了attribute-aware CF;还有前几篇文章的FNN、Wide & Deep等;这些模型是通过拼接多个Embedding层来学习特征交互;
作者认为这种简单的拼接只提取了很少的低层次信息,所以为了解决这个问题,需要使用多层NN来实现,但是多层NN很难最优化参数,会出现梯度消失/爆炸、过拟合等问题;举个例子说明一下这个最优化参数难点,如下图所示:
在这里插入图片描述
发现用FM来进行预训练会使得效果提升大约11%。

三、NEURAL FACTORIZATION MACHINES

3.1 The NFM Model

和FM类似,给定 x ∈ R N {\rm{x}} \in {R^N} xRN,其预测公式为: y ^ N F M ( x ) = w 0 + ∑ i = 1 n w i x i + f ( x ) { {\hat y}_{NFM}}(x) = {w_0} + \sum\limits_{i = 1}^n { {w_i}{x_i}} + f(x) y^NFM(x)=w0+i=1nwixi+f(x)也就是和FM不同的在于第三部分 f ( x ) f(x) f(x),这也是NFM的核心部分,其结构如下图所示:

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值