CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

DSIN模型将用户行为序列按Session划分,通过Transformer的Multi-head Self-Attention机制提取Session兴趣表示。Session Interest Extractor Layer结合bias encoding与Self-Attention,捕捉用户在不同Session中的兴趣变化。实验结果显示DSIN在CTR预测和推荐系统中有出色表现。
摘要由CSDN通过智能技术生成

之前的文章讲解了DIEN模型:CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例,而这篇文章要讲的是DSIN模型,它与DIEN一样都从用户历史行为中抽取兴趣表示,但不同的是DSIN把历史行为划分成了不同的Session,并且使用Transformer对每个Session内的行为抽取特征。

模型解读

整体模型的结构如下:

在这里插入图片描述

首先看看右下部分的矩形区域,这部分主要是对用户的行为序列建模,其中包含了4个子模块。

1. Session Divsion Layer

从下往上看的话,最底层的粉色区域是Session分割层:

在这里插入图片描述

首先是把用户的行为序列 S = b 1 , b 2 , . . . B N S={b_1, b_2, ... B_N} S=b1,b2,...BN 划分成K个Session会话 Q 1 , Q 2 , . . . Q K Q_1, Q_2, ... Q_K Q1,Q2,...QK ,不同的Session直接的间隔大于30分钟,同一Session内的序列 b 1 , b 2 , . . . , b T {b_1, b_2, ..., b_T} b1,b2,...,bT 的间隔小于30分钟。

2. Session Interest Extractor Layer

得到K个Session后,输入到黄色的Session兴趣抽取层,最终得到K个Session的兴趣表示:

在这里插入图片描述

这一层把每个Session的序列数据 Q k Q_k Qk 和对应的 bias encoding 结合起来,通过Transformer的 Multi-head Self-Attention机制提取Session内部行为之间的联系,进而得到Session对应的兴趣表示 I k I_k Ik

2.1 bias encoding

首先,这个 bias encoding 是怎么回事?

为了刻画不同Session中不同物品的顺序关系,引入了 bias encoding :
B E ( k , t , c ) = w k K + w t T + w c C BE_{(k,t,c)} = w_k^K + w_t^T + w_c^C BE(k,t,c)=wkK+wtT+wcC
B E ( k , t , c ) BE_{(k,t,c)} BE(k,t,c) 表示第k个session中第t个物品的embedding向量的第c个位置的偏置项,于是输入到 Self-attention 中的数据为:
Q = Q + B E Q = Q + BE Q=Q+BE
其中,Q 包含了 Q 1 , Q 2 , . . . , Q K Q_1, Q_2, ... , Q_K Q1,Q2,...,QK

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值