推荐系统（十九）Gate网络（二）：百度GemNN（Gating-Enhanced Multi-Task Neural Networks）-CSDN博客

本文链接：https://blog.csdn.net/u012328159/article/details/123900220

本文深入解析了GemNN（Gating-Enhanced Multi-Task Neural Networks）模型，特别是其门控机制在embedding层与MLP之间的应用，以及采用bit-wise gate的优势。文中提到凤巢在实际场景中发现，gate作用在embedding层效果优于隐藏层，且sigmoid激活函数表现更优。此外，凤巢通过网络参数量化压缩实现了性能与效率的平衡。博客还提及了模型中特征共享的策略，增强了模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

推荐系统（十九）Gate网络（二）：百度GemNN（Gating-Enhanced Multi-Task Neural Networks）

推荐系统系列博客：

我司这篇文章老实讲，创新点是弱了点，这应该也是被SIGIR’21录用为短文的原因吧。个人认为这篇文章最让人感兴趣的反而不是这个模型结构，而是文章中笔墨不多的凤巢目前模型架构的一些trick，然而遗憾的是不知道是因为短文篇幅受限的原因还是不想过多描述的原因（大概率是这个原因），这部分没有被过多的介绍。

一、GemNN模型中Gate

GemNN

图1. GemNN中gate

关于GemNN中gate如图1所示，他这里有三个显著的特点：1. gate的位置在embedding层到MLP全连接层之间。2. 他没有对每个feature单独做gate，而是把所有的feature拼接（concatenation）后，再做gate。3. gate的方式是bit-wise的。

关于第2个特点，可以形式化的来表述下。假设用 $E = [e_1, e_2,...,e_n]^T$ 来表示concatenated embeddings， $n$ 表示特征的数量， $e_i \in R^d$ 表示每个field（比如『性别』作为一个feature，那么『男』就是为性别这个feature的一个field，同样『女』也是为一个filed）的embedding维度为 $d$ 维。然后对 $E$ 以bit-wise方式做gate， $G=[g_1, g_2,...,g_n]^T=act(W*E +b)$ ， $act(\cdot)$ 为激活函数， $W$ 的维度为 $R^{(nd)\times(nd)}$ 。这个地方， $W$ 的维度需要好好理解下，我再来上个公式帮助大家理解：
$\begin{bmatrix} g_1\\ g_2\\ ... \\ g_n \\ \end{bmatrix} = act(\begin{bmatrix} w_{1,1}& w_{1,2}& ...&w_{1,nd} \\ w_{2,1}& w_{2,2}& ...&w_{2,nd} \\ ...& ...& ...& ...\\ w_{nd,1}& w_{nd,2}& ...&w_{nd,nd} \\ \end{bmatrix}\cdot \begin{bmatrix} e_{1,1}\\ e_{1,2}\\ ... \\ e_{1,d} \\ ...\\ e_{n,1}\\ e_{n,2}\\ ... \\ e_{n,d} \\ \end{bmatrix} + \begin{bmatrix} b_1\\ b_2\\ ... \\ b_{nd} \\ \end{bmatrix}) \tag{1}$

计算得到 $G$ 后，再与原来的embedding向量做哈达玛积（element-wise product），即 $[g_1\otimes e_1, g_2\otimes e_2,...,g_n\otimes e_n]$

二、GemNN中一些经验

凤巢在自己的场景下实验得出一些经验，仅供参考：

gate作用在embedding层与输入层之间效果比作用在隐藏层之间好。
gate使用bit-wise效果好于vector-wise。
gate网络的激活函数sigmoid无论在收敛性和auc增益上都要显著好于其它的激活函数。

据我所知，凤巢那边为了降低线上耗时，还做了网络参数量化压缩，大概压缩了50%的参数量，AUC持平。

三、其他

这篇论文最核心的我觉得下面这张图，但是非常遗憾的是这个地方在这篇论文中描述的比较少，我们能看到的就是链路上相同的特征embedding会被shared的，这里的shared不是训练时share，而是类似于预训练热启。结合图来说，就是user-ad ranking模型、ad-mt matching模型、user-ad-mt模型一些公共的特征会被共享。
GemNN