NIPS2017｜行为序列建模的方式---Transformer-CSDN博客

本文链接：https://blog.csdn.net/Blank_spaces/article/details/108373690

本文深入解析Transformer模型，探讨其在行为序列建模中的应用。重点介绍注意力机制、多头注意力、自注意力和模型结构，包括Encoder-Decoder、Positional Encoding等关键概念，适合深度学习和自然语言处理领域的读者学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

最近想研究序列推荐的内容，刚好看到行为序列建模的BST[1]序列模型运用了Transformer[2]结构，并且美团博客中也提到了“Transformer 在美团搜索排序中的实践”[3]。因此学习了Transformer模型内容，并记录了笔记。本篇文章并没有什么创新，因为基本参考了对Jay Alammar的博客[4]，想要具体了解，可以查看原博客（点击原文链接）。但由于下一篇是想对Transformer中遇到的问题进行汇总与解答（Q&A），所以先将自己整理的内容堆上来，方便参考。

本文约2.7k字，预计阅读15分钟。

Transformer

Transformer，是一个sequence-to-sequence模型，2017年提出。与其他Seq2Seq模型不同的是，它抛弃了传统的RNN与CNN，完全依赖注意机制来构成整个网络的架构，广泛的应用于机器翻译、语音识别等领域，当然也有在序列推荐中有具体的应用。Transformer也是一个encoder-decoder的结构，由自注意力机制（self attention）和前馈神经网络（Feed Forward）堆叠而成。论文中整体的结构如下所示：