为什么说Transformer可以代替seq2seq？

人工智能MOS

已于 2024-01-26 19:43:21 修改

阅读量961

点赞数 18

文章标签：自然语言处理人工智能机器学习 transformer

于 2023-12-20 17:45:00 首次发布

本文链接：https://blog.csdn.net/2301_81887304/article/details/135101557

版权

Transformer模型，由Google提出，抛弃了传统的CNN和RNN，广泛应用于NLP领域。Transformer通过Encoder-Decoder结构，利用Self-Attention和Multi-Head Attention机制，解决了RNN在并行计算上的不足，提升了模型的表达能力和效率。本文详细介绍了Transformer的结构、Multi-head Attention的重要性以及相比seq2seq的优势。

摘要由CSDN通过智能技术生成

1. 什么是Transformer

《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Transformer构建的，这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。

2. Transformer结构

2.1 总体结构

Transformer的结构和Attention模型一样，Transformer模型中也采用了 encoer-decoder 架构。但其结构相比于Attention更加复杂，论文中encoder层由6个encoder堆叠在一起，decoder层也一样。

不了解Attention模型的，可以回顾之前的文章：Attention

每一个encoder和decoder的内部结构如下图：

encoder，包含两层，一个self-attention层和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。
decoder也包含encoder提到的两层网络，但是在这两层中间还有一层attention层，帮助当前节点获取到当前需要关注的重点内容。

2.2 Encoder层结构

首先，模型需要对输入的数据进行一个embedding操作，也可以理解为类似w2c的操作，enmbedding结束之后，输入到encoder层，self-attention处理完数据后把数据送给前馈神经网络，前馈神经网络的计算可以并行，得到的输出会输入到下一个encoder。

2.2.1 Positional Encoding

transformer模型中缺少一种解释输入序列中单词顺序的方法，它跟序列模型还不不一样。为了处理这个问题，transformer给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding，维度和embedding的维度一样，这个向量采用了一种很独特的方法来让模型学习到这个值，这个向量能决定当前词的位置，或者说在一个句子中不同的词之间的距离。这个位置向量的具体计算方法有很多种，论文中的计算方法如下：