【读书笔记】Deep Interest Evolution Network for Click-Through Rate Prediction

最新推荐文章于 2023-06-30 20:44:19 发布

SrdLaplaceGua

最新推荐文章于 2023-06-30 20:44:19 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习读书笔记实用技巧文章标签：推荐系统 recommender system 深度兴趣转移网络 DIEN 阿里

本文链接：https://blog.csdn.net/SrdLaplace/article/details/89464050

版权

机器学习同时被 3 个专栏收录

57 篇文章 0 订阅

订阅专栏

读书笔记

37 篇文章 1 订阅

订阅专栏

实用技巧

32 篇文章 0 订阅

订阅专栏

Zhou G, Mou N, Fan Y, et al. Deep Interest Evolution Network for Click-Through Rate Prediction[J]. arXiv preprint arXiv:1809.03672, 2018.
https://github.com/mouna99/dien

Abstract

对于CTR预测模型，很有必要捕捉用户兴趣的转移。因此设计了 interest extractor layer 从历史序列中捕捉用户暂时的兴趣。在训练的每一步中，我们为 interest extractor layer 引入了辅助loss。在 interest extractor layer 中加入了attention机制。

Introduction

遵循用户的兴趣是导致一系列行为的原因，我们设计了辅助 loss，用下一个行为来训练当前的 hidden state（称之为 interest states）。这样有助于捕捉更多的语义信息并且是的GRU更高效的表征兴趣。
基于由 interest extractor layer 提取的兴趣序列，设计了GRU with attentional update gate (AUGRU)，增强在兴趣变化中相关兴趣的影响，减弱不相关兴趣的影响。

Interest Extractor Layer

用 GRU 的原因是因为它既可以避免梯度消失，有比 LSTM 速度快。GRU的表达为：
$u_t=\sigma(W^ui_t+U^uh_{t-1}+b^u)$

$r_t=\sigma(W^ri_t+U^rh_{t-1}+b^r)$

$\tilde{h}_t=tanh(W^hi_t+r_t\circ U^hh_{t-1}+b^h)$

$h_t=(1-u_t)\circ h_{t-1}+u_t\circ\tilde{h}_t$

$u_t$ 相当于遗忘门，控制更新 $h_t$ 的程度， $r_t$ 控制前一时刻对这一时刻的影响， $\tilde{h}_t$ 表示这一时刻的更新状态， $h_t$ 表示隐藏状态。
如果只用最后的click结果当作是 label，那么GRU不能得到充分的训练，因为用户的兴趣是导致一系列行为的原因，用下一个行为来训练当前的 hidden state，下一个行为当作是正样本，并随机负采样，当作是负样本
$L_{aux}=-\frac{1}{N}(\sum_{i=1}^N\sum_t[log\sigma(h_t^i,e_b^i[t+1]))+log\sigma(h_t^i,e_b^i[t+1]))])$

整个神经网络的损失函数为
$L_{target}=-\frac{1}{N}(\sum_{i=1}^N[ylog~p(x)+(1-y)log~(1-p(x))])$

$L=L_{target}+\alpha L_{aux}$

$\alpha$ 用来平衡 interest representation 和 CTR prediction。有辅助loss的帮助，每一个 hidden state 充分的训练成为了 represent interest state。

Interest Evolving Layer

再点击序列中未必都是与最终结果相关的，我们需要增强在兴趣变化中相关兴趣的影响，减弱不相关兴趣的影响，所以给 GRU 增加 attention，权重因子
$a_t=\frac{exp(h_tWe_a)}{\sum_{j=1}^Texp(h_jWe_a)}$

其中 $e_a$ 为 concat of embedding vectors from fields in category ad。
下面介绍三种加 attention 的 GRU 模型

GRU with attentional input (AIGRU)： $i_t^‘ = h_t\cdot a_t$ ，将 $i_t^‘$ 作为下一个GRU单元的输入
Attention based GRU(AGRU)： $h_t^’=(1-a_t)\circ h_{t-1}^’+a_t\circ\tilde{h}_t^’$ ，用 attention score 代替 update gate
GRU with attentional update gate (AUGRU)： $u_t^‘ = u_t\cdot a_t$ ，通过控制 update gate 来实现 attention