推荐系统（十八）Gate网络（一）：新浪微博GateNet

最新推荐文章于 2024-12-29 10:02:02 发布

天泽28

最新推荐文章于 2024-12-29 10:02:02 发布

阅读量4.5k

点赞数 2

分类专栏：推荐系统机器学习&深度学习文章标签： GateNet Gate网络推荐系统推荐模型 Ctr预估

本文链接：https://blog.csdn.net/u012328159/article/details/123834060

版权

机器学习&深度学习同时被 2 个专栏收录

86 篇文章

订阅专栏

推荐系统

20 篇文章

订阅专栏

推荐系统（十八）Gate网络（一）：新浪微博GateNet

推荐系统系列博客：

CTR预估模型在学术界/工业界进化的路线有明显的几个节点：1. 从单特征到交叉特征，围绕着如何学到更有用的交叉特征，诞生了一系列的模型。2. attention火起来后，被迅速应用到CTR预估领域中，又有很多模型被提出。3. gate网络火起来后，同样也催生了一些模型。但话说，我其实一直没太搞明白『attention』和『gate』本质上的区别是什么？有路过的大佬可以评论区帮忙解答下。

言归正传，这篇博客将要介绍新浪微博张俊林大佬团队提出的GateNet模型，这篇文章我只在arxiv上找到了，并没有找到公布发表的会议版本，应该是还没投。整篇文章看起来比较简短，因为Gate网络实在没什么好讲的，所以文章大量的笔墨都在实证研究上了，不过遗憾的是，数据集都是用的公开的数据集，没有看到在新浪微博自己的数据集上的实验效果。

本篇博客将会从两个方面介绍下GateNet：

GateNet网络类型
1.1. embedding层Gate（Feature Embedding Gate）
1.2. 隐藏层Gate（Hidden Gate）
GateNet论文实验结论
自己实践中一些结论

一、GateNet网络类型

这篇论文中依据Gate网络施加位置的不同，分为了两种类型：embedding层Gate（Feature Embedding Gate）和隐藏层Gate（Hidden Gate）。下面来分别介绍一下：

1.1、embedding层Gate（Feature Embedding Gate）

顾名思义，embedding层Gate就是把Gate网络施加在embedding层，具体又可以分为两种：bit-wise和vector-wise。bit-wise就是每一个特征的embedding向量的每一个元素（bit）都会有一个对应的Gate参数，而vector-wise则是一个embedding向量只有一个Gate参数。假设样本有两个特征，每个特征embedding维度取3，用个图来形象的对比下bit-wise和vector-wise的gate的区别：
bit-wise gate

图1. embedding层bit-wise方式的gate

vector-wise gate

图2. embedding层vector-wise方式的gate

值得一提的是，论文中关于gate网络参数是否共享提出了两个概念：

field private： 所谓field private就是每个特征都有自己的一个gate（这意味着gate数量等于特征个数），这些gate之间参数不共享，都是独立的。图1、图2中gate的方式就是这种。
field sharing： 与field private相反，不同特征共享一个gate，只需要一个gate即可。优点就是参数大大减少，缺点也是因为参数大大减少了，性能不如field private。

通过论文中给出的实验表明，field private方式的模型效果要好于field sharing方式。

下面通过形式化的公式来看下embedding层Gate的流程（尽管我觉得上面两个图已经非常清晰的展示了细节，但配合公式来一波强化记忆吧），假设有 $n$ 个特征，每个特征的embedding维度为 $d$ ，则 $E=[e_1, e_2, ..., e_n]$ ， $e_i$ 为特征 $i$ 对应的embedding向量， $e_i \in R^d$ ，下面为整个计算步骤：
第一步：计算gate value： $g_i=\sigma(W_i \cdot e_i)$ ，如果是bit-wise方式，则 $W_i \in R^d$ ， $\in R^{d \times d}$ 是一个矩阵；如果vector-wise方式，则 $W_i$ 为一个标量， $\in R^{d}$ 是一个向量。