深度模型（十七）：用户兴趣建模与多任务学习模型笔记

最新推荐文章于 2024-07-17 00:32:55 发布

jony0917

最新推荐文章于 2024-07-17 00:32:55 发布

阅读量690

点赞数

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/113923640

版权

DIN

在这里插入图片描述

历史行为丰富的用户，兴趣是多种多样的，在面对不同的候选商品时，用户的兴趣可以被局部激活。
DIN提出固定长度向量表达用户多种兴趣的局限性，并设计了全新的深度兴趣模型，引入了兴趣局部激活单元，自适应的从用户历史行为数据中学习与目标广告相关的用户兴趣的表示。DIN极大的提高了模型的表达能力，更好的捕捉用户兴趣的多种特征。
DIN中用户兴趣表示为 $\bold{v}_U(A) = f(\bold{e}_A,\bold{e}_1,\bold{e}_2,...,\bold{e}_H) = \sum_{j=1}^Ha(\bold{e}_A,\bold{e}_j)\bold{e}_j=\sum_{j=1}^Hw_j\bold{e}_j$ ，值得注意的是标准注意力机制中的限制 $\sum_{j=1}^Hw_j=1$ 并没有被采用， $\bold{v}_U(A)$ 的大小可以近似表示用户兴趣的强烈程度。
DIN提出mini-batch感知的正则化，节省了深度模型正则化的计算量，避免参数过拟合。
DIN提出数据自适应激活函数，通过考虑输入的分布扩展PReLU函数，提升模型效果。
试图采用LSTM建模建用户历史行为序列数据，但是没有提升。不同于NLP任务中遵循语法约束的文本序列，用户行为序列可能同时包含多种兴趣。用户兴趣点的跳转以及终止使用户行为序列看起来类似噪音。一个可能是方向是设计特殊的结构以序列的方式建模行为数据.

DIEN

在这里插入图片描述

最终的兴趣表示 $h'(T)=F(\bold{b}_1,\bold{b}_2,...,\bold{b}_T)$ 经过了嵌入层、兴趣抽取层、兴趣演变层。
嵌入层将用户历史行为序列从稀疏的高维表示 $\{\bold{b}_i | i\in[1, T]\}$ 映射到稠密的低纬表示 $\{\bold{e}_i|i\in[1,T]\}]$ 。不同于DIN中将用户历史行为表示 $\bold{e}_j$ 直接作为用户的多种兴趣表示，DIEN设计一个专门的兴趣抽取层，采用GRU网络建模用户历史行为间的依赖关系：

$\bold{u}_t=\sigma(W^u\bold{i}_t + U^u\bold{h}_{t-1} + \bold{b}^u)$

$\bold{r}_t=\sigma(W^r\bold{i}_t+U^r\bold{h}_{t-1}+\bold{b}^r)$

$\widetilde{\bold{h}}_t=tanh(W^h\bold{i}_t + U^h\bold{r}_t\circ\bold{h}_{t-1} + \bold{b}^h)$

$\bold{h}_t = (\bold{1}-\bold{u}_t)\circ\bold{h}_{t-1} + \bold{u}_t \circ \widetilde{\bold{h}}_t$

$G R U$ 的 $t$ 时刻的隐状态 $\bold{h}_t$ 表示 $t$ 时刻的兴趣，但是GRU的隐状态并非用于兴趣表示的，所以设计了一个辅助任务，用于帮助隐状态的学习：

$Loss_{aux}=-\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T(log\sigma(\bold{h}_t,\bold{e}_{t+1}) +log(1 - \sigma(\bold{h}_t,\bold{e}_{t+1}')))$

兴趣抽取层之后，得到了用户兴趣状态序列 $\bold{h}_1, \bold{h}_2,...,\bold{h}^T$ .设计了用户兴趣演化网络层，建模用户兴趣中关于目标物品的兴趣的演化。
通过注意力机制，选取用户兴趣状态序列中与目标物品相关的兴趣，然后通过RNN网络建模兴趣的演化过程，得到最终的用户兴趣 $\bold{h}_T'$ .

文中尝试了三种注意力机制与GRU的组合方式，分别是：

$\bold{i}_t' = a(\bold{e}_a,\bold{h}_t)\bold{h}_t$
$\bold{h}_t' = (1-a(\bold{e}_a,\bold{h}_t))\bold{h}_{t-1}' + a(\bold{e}_a, \bold{h}_t)\widetilde{\bold{h}}_{t}$
$\bold{u}_t'=a(\bold{e}_a, \bold{h}_t')\bold{u}_t'$

DSIN

在这里插入图片描述

前面的模型忽略了一个事实，那就是用户行为序列是分会话的
DSIN对用户历史行为的包含4层网络：
- 会话分割层：将用户的历史行为划分为不同的会话
- 会话兴趣抽取层：抽取会话内用户兴趣
- 会话兴趣交互层：建模会话兴趣间的序列关系
- 会话兴趣激活层：采用局部激活单元建模关于目标物品的兴趣

MMOE

在这里插入图片描述

很多研究工作表明多任务模型的效果非常依赖任务间的内在相关性
本论文采用合成数据的方式量化研究了任务相关性与多任务模型效果间的关系
然而现实中任务间的相关性很难被量化，建立在任务间某种相关性基础上的多任务学习方式，适用范围比较小
MMOE并不会任务间的相关性做任何的假设，MMOE(多门混合专家模型)可表示为下列公式：

$y_k=h^k(f^k(x))$

$f^k(x) = \sum_{i=1}^ng_i^k(x)f_i(x)$

$g^k(x) = softmax(W_{gk}x)$

其中 $y_k，k\in[1,K]$ 表示k个任务的拟合目标， $h^k(.)，k\in[1,K]$ 表示k个任务的独占网络， $f_i(.),i\in[1,n]$ 表示n个专家网络， $g^k(.)$ 表示每个任务对应的控制门，这里控制门采用的结构是对输入 $x$ 做简单的转换后，通过softmax网络输出n个专家网络的分布。