Transformer原理以及运行机制

最新推荐文章于 2024-07-07 00:27:11 发布

萤萤小侠y

最新推荐文章于 2024-07-07 00:27:11 发布

阅读量7.2k

点赞数 9

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/m0_61296035/article/details/121123307

版权

1.Transformer的“前世今生”

transformer最开始是在一篇为Attention is all you need首先提出来的。那么为什么作者会想要提出这样一种新的机制呢，作者到底想要进一步实现什么样的目标呢，那Transformer起到什么优化效果了呢？那我们一起简单说一下Transformer的“前世今生”吧。

最开始引入transformer是应用在机器翻译上。

最初，在机器翻译上，我们应用RNN，但是应用RNN做机器翻译有局限性，RNN只能解决多对多，一对多，多对一（N To N，I To N，N to I）的问题，但是我们在进行机器翻译时，输入的单词数目和输出的字符数目不一定是一一对应的，可能你输入的一段话中有5个单词，翻译成中文只有4个字，即RNN难以解决N To M的翻译问题。

后来为了解决这个问题，提出了Seq to Seq，这个模型解决了输入与输出两端单词数目不等的状况，Seq to Seq模型具有编码器Encoder和解码器Decoder。Seq to Seq模型会将输入传入Encoder，Encoder处理后传入一个意义单元，再传入Decoder进行处理，最后输出。但是又遇到一个问题，意义单元能存储的信息有限，如果输入的句子太长，翻译精度就会下降。

于是又提出了Attention（注意力机制），在Seq to Seq模型基础之上，生成每个单词时，都有意识的从原始句子中提取生成该单词时最需要的信息，摆脱了输入序列的长度限制，但是这样子的话，意味着Encoder要首先要看完整个句子中所有单词，这样计算就比较慢了，这不是我们期待的结果，所以，接着改进！

出现了Self-attention（自注意力机制），在输入的整句话中，先提取每个单词的意义，再依据生成顺序选取所需要的信息。（关于自注意力机制的内容，我会在记录在一篇新的文章中~~啦啦啦）

而transformer的运行机制中用到了Self-attention（自注意力机制），transform是sequence to sequence的一个模型，也就是说，输入是一个sequence，输出多长由机器决定。

2.Transfomer的原理与运行机制

基本原理

transformer模型主要分为encoder和decoder。基本原理就是输入一个序列（sequence），通过encoder的处理，再传入decoder中，由decoder进行处理，然后输出最后的结果。

运行机制

（1）Encoder

如下图，此图来自李宏毅老师机器学习课程中的课件，很清晰的展示了encoder的结构以及作用。

左半部分，输入了一段sequence，这段sequence可以被分解成x1、x2、x3、x4这四个词语，每个词语都代表是一个向量。通过encoder的处理，生成新的四个向量，分别是h1、h2、h3、h4。这就是encoder的作用，即：产生与输入数量相等的新的对应向量。

右半部分就是encoder的内部具体运行机制。我们接下来展开说明~~~

encoder的内部具体运行机制：

encoder内部是由多个Block组成，每个Block都是输入一排向量，然后输出一排向量。

那么Block又是怎么样的呢？

一个Block内部的结构：

解释：输入一个sequence资讯，用自注意力机制考虑整个sequence中前后信息的关联，然后self-attention的输出与input相加（a+b），然后a+b的结果再做layer normalization（求均值和方差，具体layer normalization内部结构是什么样的，这里先不作过多解释），做完layer normalization后得到C，将C传入fully-connection（FC），然后FC操作后，得到D，D+C得到E，再做一次layer-normalization，然后终于输出一个block啦。（撒花~~~）