论文分析--＞推荐系统--＞FLEN

最新推荐文章于 2022-10-20 13:36:20 发布

村头陶员外

最新推荐文章于 2022-10-20 13:36:20 发布

阅读量408

点赞数

分类专栏：论文文章标签：机器学习 ctr 推荐系统

本文链接：https://blog.csdn.net/mr_tyting/article/details/115053325

版权

论文专栏收录该内容

31 篇文章 3 订阅

订阅专栏

本次要总结的论文题目是FLEN: Leveraging Field for Scalable CTR Prediction，发表于KDD2020，论文链接是FLEN，参考的论文实现代码是flen-code，首先得说这篇论文不值得精读，我大概断断续续花了半个星期读完论文和代码，发现根本不值得我思考这么久，实现代码和论文里某些细节不是很符合，对论文里的实验结果表示怀疑。感觉就是篇水文，但是既然读完了，就总结下吧，也许是我水平有限，无法领略文章的深度呢。

文章目录

动机

现在的CTR模型普遍基于multi-field 类别型的特征，如何对这种multi-field的类别型特征建模对 CTR的效果至关重要，同时，如果对所有multi-field 类别特征建模，需要大量参数，故其无法应用于实际的生产环境。
本论文提出了FLEN方法，并已经实际应用在美图的线上环境上，其创新点主要有三点
- 在只需增加少量参数和时间复杂度允许的情况下，捕捉到 inter-field and intra-field feature（域内和域间）有用的特征。
- 提出的Dicefactor结构可以缓解FM模型中梯度耦合的问题。
这里面说的缓解所谓”梯度耦合“问题就是个玄学了，首先说下啥是梯度耦合，指的是FM模型中特征交叉时，不同特征的参数向量算内积互相影响着学习时，可能会让这两个不同域的特征参数向量朝着同一方向更新。从而让模型的表达能力受限。

模型

样本定义

在这里插入图片描述

这里假设样本特征有M个域，将 $F (n)$ 定义为第 $n$ 个特征的域，则一个样本可以这样来表示
$X = concat(x_1, x_2,...,x_M)$
$x_m= concat(x_n|F(n)=m)$

注意：这里面全是onehot或者multi-hot特征。

在这里插入图片描述

Embedding Layer

对于每个特征 $x_n$ ，可通过如下计算，得到embedding矩阵
$e_n=V_nx_n$
其中 $V_n$ 为模型需要学习的参数。

由此得到域的embedding矩阵，由这个域内的所有特征的embedding求和得到
$e_m = \sum_{n|F(n)=m} e_n$

Field-wise Bi-Interaction Pooling Layer

在这里插入图片描述

我们看上图，由三部分组成，第一部分是 $S$ , 第二部分是 $F M$ ，第三部分是 $M F$

$S$ 部分是：
$h_S = w_0+\sum_{i=1}^N\sum_{j=1}^{K_i} w_i[j]x_i[j]$

上式中 $w_0$ 对于所有特征是一样的， $N$ 表示特征数量， $k_i$ 表示第 $i$ 个特征的取值个数。 $w_i[j]$ 表示第 $i$ 个特征的第 $j$ 个取值的权重， $x_i[j]$ 表示第 $i$ 个特征第 $j$ 个取值。这里面记 $W_s = w_0 || w_i$

注意假设这里面全是onehot或者multi-hot特征

$M F$ 部分：
$h_{MF} = \sum_{i=1}^{M}\sum_{j=i+1}^{M} e_i \odot e_j\ r[i][j]$
上式中 $M$ 表示field个数， $e_i$ 表示第 $i$ 个field的embedding， $\odot$ 表示field-wise， $r [i] [j]$ 表示第 $i$ 个域和第 $j$ 个域的权重，是一个根据经验设置的超参数？论文中并没有讲到，实现代码中直接置为1了。

论文中讲到 $M F$ 部分是为了学习 域之间的交互关系。

$F M$ 部分：
$hf_m = e_m \odot e_m$
$ht_m = \sum_{n, F(n)=m} e_n \odot e_n$
$h_{FM}=\sum_{m}(hf_m - ht_m)r[m][m]$

论文中提到这是为了捕捉域内的特征交互关系。

由此上述部分的计算记为 $\Phi(W_s, R, W_{fwBI})$ ，详细数学公式可表示如下：
在这里插入图片描述
注意上式中： $(Vx)^2 = Vx \odot Vx$

当只有一个域时，即 $r_{m,m} = \frac{1}{2}$ 时：
在这里插入图片描述

当 $M = N$ 时：
在这里插入图片描述
由此得到该部分的输出 $h_{FwBI}$ 。

Dicefactor

上面已经讲到FM模型可能会导致”梯度耦合“ 的问题，因此论文中提出 Dicefactor 方法，简单而言，就是在MF部分，计算域之间交互关系时，按照一定的概率丢弃部分交叉路径。
训练阶段：
$p [i] \sim B e r n o u l l i (β)$
在这里插入图片描述

预测阶段：
在这里插入图片描述
论文中讲到这样可以减缓 “梯度耦合” 的问题，但是从实验结果来看，收益很小。

MLP

该部分的输入为：
$h_0= concat(e_1,e_2,...,e_M)$

然后过多层的全连接得到 $h_L$ 。

Prediction Layer

比较简单如下：
$h_F = concat(h_{FwBI, h_L})$
$h_F = \sigma(W_F^T\ h_F)$

损失函数为交叉熵。

实验结果

论文中对实验进行了详细分析，这里我们只看最后效果

在这里插入图片描述
其中FLEN+D 表示加了 Dicefactor 的flen，整体看来，加了所谓的Dicefactor 效果也没好多少，整体收益不大。

核心代码

Field-wise Bi-Interaction

def call(self, inputs, trainable=None, **kwargs):
        print("Tracing field_wise_bi_interaction.call()")

        left = []
        right = []
        for i in range(self.num_fields):
            for j in range(i + 1, self.num_fields):
                left.append(i)
                right.append(j)

        embeddings = tf.reshape(inputs, [-1, self.num_fields, self.embedding_size])
        embeddings_left = tf.gather(params=embeddings, indices=left, axis=1)
        embeddings_right = tf.gather(params=embeddings, indices=right, axis=1)
        embeddings_prod = tf.multiply(x=embeddings_left, y=embeddings_right)
        field_weighted_embedding = tf.multiply(x=embeddings_prod, y=self.kernel)
        field_weighted_embedding = tf.reduce_sum(field_weighted_embedding, axis=1)

        if self.use_bias:
            field_weighted_embedding = tf.nn.bias_add(field_weighted_embedding, self.bias)

        if self.activation is not None:
            field_weighted_embedding = self.activation(field_weighted_embedding)

        return field_weighted_embedding

显然上述代码只计算了 MF部分。

Dicefactor

self.embedding_layers = {}
self.dice_bn_layer = BatchNormalization(momentum=0.9)
self.dice_dropout_layer = Dropout(0.7)
self.dice_fc_layers = jarvis.layers.FullyConnect(units=32, name='dice_fc')

embeddings = tf.concat(values=embeddings, axis=1)
fm_embedding = tf.concat(fm_embeds, axis=1)
fm_embedding = self.dice_fc_layers(fm_embedding)
fm_embedding = self.dice_bn_layer(fm_embedding)
fm_embedding = self.dice_dropout_layer(fm_embedding)

可以看出，这里面并没有实现 $p [i] \sim B e r n o u l l i (β)$ ，这也是比较令人疑惑的地方。

个人总结

这篇论文是说缓解”梯度耦合“的问题，不过论文中没有从实验结果证明是真的缓解了，这也是CTR论文的通病，都说解决解决了什么，其实也没人知道是否真的解决了。
开源代码中有几处细节与论文的实现并不一样，由此让人怀疑其论文中的实验结果。
如果论文中实验结果是真的，该方法的收益也并不大，个人觉得不值得上线尝试，并且在有关文章下，有读者评论效果还不如deepfm，当然个中细节不得而知。

参考文章

https://arxiv.org/pdf/1911.04690.pdf
https://github.com/aimetrics/jarvis

村头陶员外

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文分析--＞推荐系统--＞FLEN

本次要总结的论文题目是FLEN: Leveraging Field for Scalable CTR Prediction，发表于KDD2020，论文链接是FLEN，参考的论文实现代码是flen-code，首先得说这篇论文不值得精读，我大概陆陆续续花了半个星期读完论文和代码，发现根本不值得我思考这么久，实现代码和论文里某些细节不是很符合，对论文里的实验结果表示怀疑。感觉就是篇水文，但是既然读完了，就总结下吧，也许是我水平有限，无法领略文章的深度呢。文章目录动机模型样本定义Embedding LayerFi
复制链接

扫一扫