Transformer学习

阿秋qqqqqq彭

已于 2023-10-05 19:16:14 修改

阅读量68

点赞数

文章标签： transformer 学习深度学习

于 2023-09-25 10:56:49 首次发布

本文链接：https://blog.csdn.net/m0_55009307/article/details/133249130

版权

Teansformer 模型的作用

基于 seq-to-seq 架构的transformer 模型可以完成 NLP领域研究的典型任务，如机器翻译，文本生成等。同时由可以构建预训练语言模型，用于不同任务的迁移学习。transformer的经典模型如下图所示：

seq-to-seq架构

一段语音讯息 ——> Speech Recognition ——> 识别的语言文本

一段语言文本 ——> Machine Translation ——> 翻译的另一种语言文本

一段语音讯息 ——> Speech Translation ——> 翻译的另一种语言文字

seq2seq 可运用到不同类型的语言处理中，如训练一个对话机器，训练一个分析摘要重点的机器，或是训练一个判断一句话是正面或者反面的机器。虽然范围很广，但在处理不同问题时找到最合适的模型进行解决将大大提高效率。

http://speech.ee.nut.edu.tw/~hylee/dlhlp/2020-spring.html 提供了对于不同类型处理方向使用不同的模型的方法。

seq2seq 的流程：

input sequence ——> encoder ——> decoder ——> output sequence

transformer 原理：

encoder 架构：

工作：向其输入一些向量后输出另外一些向量，这是用于许多模型。但 transformer 的 encoder 有其独特的结构，一个encoder 中有许多block 层，一个block 又分为几个小层，最终得到下一个 block 的输入。

positional encoding 在 self- attention 基础上加入位置信息，Multi- Head attention 就是 self attention 的 block ，即Multi- Head self attention；add & norm 就是下文提到的 residual attention + layer normalization；再进入 fulling connected 进行 feed forward，并进行add &norm。BERT 网络也使用的是这种网络。

positional encoding

Multi-Head Attention 就是self-attention block；Add&Norm 就是Residual + Layer normalization

BERT模型就是参照的 Transformer 的 encoder 来设计的

encoder 原理

一个 block 的具体工作方式：

输入一排向量输出一排向量。一个block 并非一个layer ，一个block 包含多个layer

流程：输入一排向量进入block ，首先进入 self- attention 来考虑整个sequence 的信息，输出另一排向量，接着进入full connection 层，最后输出下一个block 输入的向量。

事实上，经典的 transformer 中的一个 block 的计算方式更加复杂。

解释一下：首先输入一排向量进入block ，在block 中首先进入，由self- attention 对整个一排向量进行分析，得到对应一个向量的输出；再通过 residual attention 将原向量和所得向量相加；得到的新向量再进入 layer Normalization 进行归一化；最终得到的向量还要进入 full connection 进行全连接；与前面操作类似，得到的向量经过 residual attention 、layer normalization等最后得到最终该block 的输出。