transformer预测过程_Transformer在推荐模型中的应用总结

本文探讨了Transformer模型如何应用于推荐系统,包括Self-Attentive Sequential Recommendation、Next Item Recommendation with Self-Attention、BERT4Rec和Behavior Sequence Transformer。Transformer结构在建模用户行为序列上优于传统LSTM和GRU,能有效捕捉用户短期和长期兴趣,为推荐算法提供更精准的用户表示。
摘要由CSDN通过智能技术生成

最近基于transformer的一些NLP模型很火(比如BERT,GPT-2等),因此将transformer模型引入到推荐算法中是近期的一个潮流。transformer比起传统的LSTM、GRU等模型,可以更好地建模用户的行为序列。本文主要整理transformer在推荐模型中的一些应用。

1. Self-Attentive Sequential Recommendation

模型结构:

b68d167ca5f3fd1b762102a575f006f3.png

方法:

符号定义:

bbf514716eae11087b5c04ec929eca8d.png

问题定义:模型输入是用户u的一个历史交互序列:

, 其期望的输出是该交互序列一个时间刻的偏移:
  • Embedding层

将输入序列

转化成固定长度的序列
。意思是如果序列长度超过n,则使用最近n个行为。如果不足n,则从左侧做padding直到长度为n。

位置embedding: 因为self-attention并不包含RNN或CNN模块,因此它不能感知到之前item的位置。本文输入embedding中也结合了位置Embedding P信息,并且位置embedding是可学习的:

88a49e6f5a2397121f40bc4b632b86c2.png
  • Self-Attention层

Transformer中Attention的定义为:

ebb1d1aded975da5a64ae3cdb8ee4d07.png

本文中,self-attention以embedding层的输出作为输入,通过线性投影将它转为3个矩阵,然后输入attention层:

e5827b29d27ff661d67de456c8ca431f.png

为了避免在预测i时刻的item时用到后续时刻的信息,本文将符合(j > i)条件的

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值