Transformer的位置编码和Attention 介绍

最新推荐文章于 2024-09-05 12:49:39 发布

ZHUY-JUN

最新推荐文章于 2024-09-05 12:49:39 发布

阅读量1k

点赞数

文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_41980734/article/details/111230059

版权

Transformer是一种由谷歌提出的深度学习模型，其主要特点是利用注意力机制实现并行化处理，摒弃了传统的RNN结构。模型包含编码器和解码器，其中PositionalEncoding用于给输入序列添加位置信息。编码器由多个包含多头自注意力和前馈神经网络的子层组成，解码器则额外包含交叉注意力层并使用掩码保证自回归性。Transformer通过这种方式解决了RNN的序列依赖问题，并提升了处理效率。

摘要由CSDN通过智能技术生成

transformer 的简单介绍

Transformer是由谷歌于2017年提出的具有里程碑意义的模型，同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础（RNN, LSTM等）

从本质上来讲，RNN是以串行的方式来处理数据，对应到NLP任务上，即按照句中词语的先后顺序，每一个时间步处理一个词语。相较于这种串行模式，Transformer的巨大创新便在于并行化的语言处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。

Transformer 本身还是一个典型的 encoder-decoder 模型，如果从模型层面来看，Transformer 实际上就像一个 seq2seq with attention 的模型。

Transformer的优点

传统缺点:seq2seq使用循环网络固有的顺序特性阻碍样本训练的并行化，这在更长的序列长度上变得至关重要，因为有限的内存限制样本的批次大小。
新结构:Transformer，这种模型架构避免循环也就是说没有 rnn 结构，引入了位置编码并完全依赖于attention机制来绘制输入和输出之间的全局依赖，解决的CNN难以建立远距离位置关系。 Transformer也解决RNN的循环特性导致的不可并行化问题

Transformer的编码和解码

在这里插入图片描述

Encoder

编码器（上图中的左半部分）是 N =6 层相同结构的堆叠，每一个层包含两个子层：多头自注意力和一个简单的element-wise前馈神经网络。每个子层中间都采用了残差连接 + 层归一化，即每一个子层的输出为 LayerNorm( x + Sublayer( x ) ) 其中 Sublayer( x ) 代表这个子层本身（多头自注意力或前馈神经网络）。其中，所有子层输出向量的维度均为 d_model = 512 是液体。

Decoder

解码器（上图中的右半部分）的结构同样是 N =6 层相同结构的堆叠，整体结构和编码器类似，不同的是这里加入了第三个子层，使用自注意力的结果作为Query，编码器的输出作为Key和Value进行交叉注意力。此外，这里的多头自注意力部分加入了mask，从而将当前预测位置之后的所有位置mask掉（将点积结果设为负无穷），以保留模型的自回归的特性。

Transformer 的 Positional Encoding

Positional Encoding 的图解

Positional Encoding 是一种考虑输入序列中单词顺序的方法。由于模型完全不包含循环或卷积，因此为了让模型感知序列的顺序信息，需要将位置信息编码进去。encoder 为每个输入 embedding 添加了一个向量（ 维度是512维 ），这些向量符合一种特定模式，可以确定每个单词的位置，或者序列中不同单词之间的距离。

Positional Encoding公式：
在这里插入图片描述
偶数位置的用 sin 函数编码，奇数位置的用 cos 函数编码

	思考问题一 ：由上可知transformer的每个字（词）的位置用的是三角函数进行编码，那为什么选择用三角函数进行编码呢？

·
例如，假设input embedding 的维度为4 ( 实际的原模型维度是512，所以真实的X₁,X₂,X₃ =512维 )，那么实际的positional encodings如下所示：
·
在这里插入图片描述
·
在下图中，是20个单词的 positional encoding，每行代表一个单词的位置编码，即第一行是加在输入序列中第一个词嵌入的，每行包含 512 个值，每个值介于 -1 和 1 之间，用颜色表示出来。

可以看到在中心位置分成了两半，因为左半部分的值由一个正弦函数生成，右半部分由余弦函数生成，然后将它们连接起来形成了每个位置的编码向量。

在bert中还得位置编码还加了 Mask

15% 的WordPiece Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后：

80% 的时候会直接替换为[Mask]标签，
10% 的时候将其替换为其它任意单词，
10% 的时候会保留原始Token。

这么做的原因是如果句子中的某个Token 100% 都会被mask掉，那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征，否则模型就会记住这个[mask]是token ’hairy‘。至于单词带来的负面影响，因为一个单词被随机替换掉的概率只有 15%10% =1.5% ，这个负面影响其实是可以忽略不计的。

另外文章指出每次只预测 15% 的单词，因此模型收敛的比较慢。

	思考问题二：Bert 学习了位置关系就可以表示语义关系，那它是如何将无监督学习转化为有监督学习的呢？

Positional Encoding 的源码

## Transformer 的 Attention

ansformer 的 Attention

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash