【Paper Note】MaskNet论文详解

最新推荐文章于 2023-10-10 20:54:51 发布

roguesir

最新推荐文章于 2023-10-10 20:54:51 发布

阅读量2.8k

点赞数 1

分类专栏： Paper Note 推荐算法推荐系统文章标签：推荐算法 MaskNet MaskBlock 深度学习

本文链接：https://blog.csdn.net/roguesir/article/details/115707493

版权

推荐算法同时被 3 个专栏收录

21 篇文章 6 订阅

订阅专栏

Paper Note

17 篇文章 0 订阅

订阅专栏

推荐系统

15 篇文章 5 订阅

订阅专栏

在这里插入图片描述

文章目录

Introduction

FNN、DeepFM、xDeepFM这类浅层网络对交叉特征建模，从而达到较好的推荐结果，但一些研究表明，前馈网络在捕获交互特征方面效率低下。

为了解决上述问题，论文提出了一种MaskBlock结构作为基本单元，设计MaskNet的网络，提出了串行MaskBlock和并行MaskBlock网络结构，在3个公开数据集上，MaskNet都表现最好，说明MaskBlock可以显著提升DNN挖掘复杂交互特征的能力。

MaskBlock结构，由3个部分组成，分别为instance-guided mask，layer normalization，feed forward layer。这种结构把标准的DNN扩展为包含可加可乘的交互特征结构。

其中instance-guided mask方法，在DNN中的特征嵌入层和前馈层同时使用element-wise product，提取全局上下文信息，动态地融入到特征嵌入层和前馈层，突出重要的特征。

Model

Embedding Layer

embedding layer和我们常规的相似，分别对sparse feature和dense feature进行基础的处理。

sparse feature：直接进行embedding转成k维特征
$e_i=W_ex_i \tag{1}$
dense feature：通过乘一个k维向量转成特征
$e_j=V_jx_j \tag{2}$

将每个特征concat操作，获得一个f*k维的特征向量，f为特征数量：
$V_{emb}=concat(e_1,e_2,\dots,e_i,\dots,e_f) \tag{3}$

Instance-Guided Mask

Instance-Guided Mask，充分利用了输入样本得到的全局上下文信息，对特征层和前馈层中重要的包含信息的特征进行强化，在DNN中引入了乘法操作，使得模型更加有效的捕捉到复杂的交互特征。

在这里插入图片描述
Aggregation Layer：一个wider layer，有效的从input instance中提取全局上下文信息

Projection Layer：把维度降到和embedding layer或hidden layer的维度

上面两层实际上是FC层
$V_{mask}=W_{d2}(W_{d1}V_{emb}+\beta_{d1})+\beta_{d2} \tag{4}$
其中， $V_{emb}\in R^{m=f*k}$ ， $W_{d1}\in R^{t*m}$ ， $W_{d2}\in R^{z*t}$ 。 t 和 z 分别是两层网络的神经元数量，Projection Layer的维度要等于embedding层或hidden层，所以 t >= z，这里设置一个超参数 r = t / z 来控制两层网络神经元的数量，后续会对 r 不同取值做验证

使用element-wise product来融合全局上下文信息
$V_{maskedEMB}=V_{mask}\odot V_{emb} \tag{5}$ $V_{maskedHID}=V_{mask}\odot V_{hidden} \tag{6}$
这个逐元素乘积操作类似Hadamard Product，向量对应位置元素相乘：
$V_i \odot V_j=[V_{i1}\cdot V_{j1},V_{i2}\cdot V_{j2}, \cdots,V_{iu}\cdot V_{ju}] \tag{7}$
instance-guided mask可以被看作为一种特殊的bit-wise attention或者是gate结构。 $V_{mask}$ 可以直接看作为每一个bit的权重，可以加强重要的特征，减弱噪声对模型的影响。

instance-guided mask优点：

1.将逐元素乘积运算引入到DNN中，能够更有效地获取复杂的特征交互
2.强化重要特征，减弱噪声

MaskBlock

由instance-guided mask、layer normalization、hidden layer组成

layer normalization：进行z-score标准化
$\odot N(x)+b \tag{8}$
其中， $N(x)=\frac{x-\mu}{\delta}$ ， $\mu=\frac{1}{H} \sum_{i=1}^{H} x_i$ ， $\delta=\sqrt{\frac{1}{H}\sum_{i=1}^{H}{(x_i-\mu)^2}}$
其中， $h$ 是layer normalization层的输出， $\odot$ 是主元素乘法操作， $\mu$ 和 $\delta$ 分别是输入数据的均值和标准差， $b$ 和 $g$ 是同 $H$ 维度相同的参数。

for embedding layer：
相当于把每个特征当作一个layer进行layer normalization，之后concat
$LN\_EMB(V_{emb})=concat(LN(e_1),LN(e_2),\cdots,LN(e_i),\cdots,LN(e_f)) \tag{9}$
for hidden layer：
$LN\_HIN(V_{hidden})=ReLU(LN(W_iX)) \tag{10}$
MaskBlock on Feature Embedding：
在这里插入图片描述
$V_{maskedEMB}=V_{mask}\odot LN\_EMB(V_{emb}) \tag{11}$ $\begin{aligned}V_{output} &= LN\_HID(W_iV_{maskedEMB}) \\ &=ReLU(LN(W_i(V_{mask}\odot LN\_EMB(V_{emb})))) \end{aligned} \tag{12}$
MaskBlock on MaskBlock：

在这里插入图片描述
$V_{maskedHID}=V_{mask}\odot V_{output}^{p} \tag{13}$ $\begin{aligned} V_{output} &= LN\_HID(W_iV_{maskedHID}) \\ &=ReLU(LN(W_i(V_{mask}\odot V_{output}^{p}))) \end{aligned} \tag{14}$

MaskNet

在这里插入图片描述
Serial MaskNet结构类似RNN，能够对交互信息不断强化，最后一个MaskBlock模块的输出作为Prediction Layer的输入进行计算

Parallel MaskNet则是将多个MaskBlock并行，相当于多个expert提取交互信息，再将所有的输出进行concat，经过hidden layer

Prediction Layer

$\hat{y}=\delta(w_0+\sum_{i=1}^{n}{w_ix_i}) \tag{15}$
loss function: logloss
$L=-\frac{1}{N}\sum_{i=1}^{N}{y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)} \tag{16}$ $\frak{L}=L+\lambda||\Theta|| \tag{17}$