SSE-PT: Sequential Recommendation Via Personalized Transformer
Liwei Wu, Shuqing Li, Cho-Jui Hsieh, James Sharpnack
University of California
RecSys 2020
https://dl.acm.org/doi/pdf/10.1145/3383313.3412258
时序信息在推荐场景中非常重要,这是因为用户的偏好是会随着时间推移而自然得动态变化。
最近深度学习进展迅速,除了自然语言处理中广泛使用的RNN和CNN,已经涌现出多种多样的注意力机制以及新的网络结构,这有助于更好地利用每个用户发生交互的商品的时序信息。
SASRec这种模型是受自然语言处理中的Transformer模型启发而产生的,取得了STOA效果。但是,SASRec,跟原始的Transformer模型类似,本质上是非个性化模型,不包含个性化的用户embedding。
为了克服这种限制,作者们提出个性化Transformer模型,SSE-PT,在NDCG@10这种指标上差不多优于SASRec 5%。此外,随机选择若干用户的行为历史,分析发现,作者们所提模型不仅解释性更强,而且针对每个用户的推荐会集中在用户的最近行为模式上。
此外,SSE-PT模型稍加修改,得到SSE-PT++,可以处理非常长的序列行为,在训练速度基本相当的前提下排序结果层面效果优于SASRec,在性能和速度方面可以取得平衡。
作者们的主要创新在于随机共享embedding(SSE)正则,在个性化推荐中非常必要。
作者们提出的模型没有跟基于Bert的模型对比
基于会话的模型和序列模型具有一定的区别
目前一些正则化方法有如下几种
序列推荐中数据集分割方式以及评价指标如下
embedding层形式如下
Transformer编码层简介如下
预测层简介如下
SSE简介如下
常用的正则化方法有以下几种
适用于特长序列的模型简介以及空间时间复杂度分析如下
实验环境、数据集简介和评价标准如下
这篇文章提出的网络结构图示如下
数据集信息统计如下
参与对比的几种方法有