推荐系统CTR预估模型之Attentional Factorization Machines(AFM)

最新推荐文章于 2020-04-20 14:34:59 发布

CIA_agent

最新推荐文章于 2020-04-20 14:34:59 发布

阅读量836

点赞数

分类专栏：推荐算法文章标签：推荐算法 CTR预估广告算法 Attentional Factorization Machines AFM模型

本文链接：https://blog.csdn.net/hnu2012/article/details/90317880

版权

推荐算法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Attentional FM(AFM[1])可以看成是在FM[2]的基础上作了一些改进，与FFM[3]把相同性质的特征引入一个field，同时也为每一个field学习一个独立的隐向量有所不同，它入了一个attention机制。传统的FM通过为每个特征学习一个embedding 向量，可以计算任何一个交叉特征的权重；然而，在实际场景中，不同的特征组合对最后的结果影响会有很大的不同，举个简单的例子，我们要做一个简单的预测用户收入的模型，feature有3个：（1）occupation={banker, engineer,…} (2) level={junior, senior} and (3) gender={male, female}，一般情况下是初级的banker的收入比初级的engineer低， senior的banker的收入可能会比senior的engineer高一些，gender的影响可能会很小(如果不考虑男女的一些比如生理上和其他的差异，完全理想的情况下应该是和性别无关的)。从这个例子可以看出，其实不同特征的交叉对最终结果的影响是有很大的不同的，useful feature的交叉应该给一个更高的权重，less userful feature的交叉则正好相反，FM并不能解决这种问题，AFM则可以更好的解决这个问题，而且可解释性更强。
在这里插入图片描述
上图是AFM的结构图，FM的一些简单基础可以参考前面DeepFM的介绍，假设输入有n个feature，那feature之前的交叉一共有n*(n-1)/2个，传统FM计算的方式如下：

xi, xj分别表示第i个和第j个feature，vi和vj表示每个feature对应的隐向量，AFM相当于在FM的基础上为每个交叉的特征学习了一个额外的权重。其计算公式如下：
在这里插入图片描述
aij是feature i和feature j 交叉的额外的权重，这部分采用一个简单的MLP通过梯度下降的方式优化loss来学习到，具体计算公式如下：

其中h, W和b都是模型的权重参数，这样，特征交叉的权重参数a就可以很容易计算出来。AFM的最终计算公式如下：
在这里插入图片描述
前面的为线性部分，后面的为引入attention的特征交叉部分。