Transformer的位置编码和Attention 介绍

Transformer是一种由谷歌提出的深度学习模型,其主要特点是利用注意力机制实现并行化处理,摒弃了传统的RNN结构。模型包含编码器和解码器,其中PositionalEncoding用于给输入序列添加位置信息。编码器由多个包含多头自注意力和前馈神经网络的子层组成,解码器则额外包含交叉注意力层并使用掩码保证自回归性。Transformer通过这种方式解决了RNN的序列依赖问题,并提升了处理效率。
摘要由CSDN通过智能技术生成

transformer 的简单介绍

Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础(RNN, LSTM等)

从本质上来讲,RNN是以串行的方式来处理数据,对应到NLP任务上,即按照句中词语的先后顺序,每一个时间步处理一个词语。相较于这种串行模式,Transformer的巨大创新便在于并行化的语言处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。

Transformer 本身还是一个典型的 encoder-decoder 模型,如果从模型层面来看,Transformer 实际上就像一个 seq2seq with attention 的模型。

Transformer的优点

  • 传统缺点:seq2seq使用循环网络固有的顺序特性阻碍样本训练的并行化, 这在更长的序列长度上变得至关重要,因为有限的内存限制样本的批次大小。
  • 新结构:Transformer,这种模型架构避免循环也就是说没有 rnn 结构,引入了位置编码并完全依赖于attention机制来绘制输入和输出之间的全局依赖,解决的CNN难以建立远距离位置关系。 Transformer也解决RNN的循环特性导致的不可并行化问题

Transformer的编码和解码

在这里插入图片描述

  • Encoder

编码器(上图中的左半部分)是 N =6 层相同结构的堆叠,每一个层包含两个子层:多头自注意力和一个简单的element-wise前馈神经网络。每个子层中间都采用了残差连接 + 层归一化,即每一个子层的输出为 LayerNorm( x + Sublayer( x ) ) 其中 Sublayer( x ) 代表这个子层本身(多头自注意力或前馈神经网络)。其中,所有子层输出向量的维度均为 dmodel = 512 是液体。

  • Decoder

解码器(上图中的右半部分)的结构同样是 N =6 层相同结构的堆叠,整体结构和编码器类似,不同的是这里加入了第三个子层,使用自注意力的结果作为Query,编码器的输出作为Key和Value进行交叉注意力。此外,这里的多头自注意力部分加入了mask,从而将当前预测位置之后的所有位置mask掉(将点积结果设为负无穷),以保留模型的自回归的特性。

Transformer 的 Positional Encoding

Positional Encoding 的图解

Positional Encoding 是一种考虑输入序列中单词顺序的方法。由于模型完全不包含循环或卷积,因此为了让模型感知序列的顺序信息,需要将位置信息编码进去。encoder 为每个输入 embedding 添加了一个向量( 维度是512维 ),这些向量符合一种特定模式,可以确定每个单词的位置,或者序列中不同单词之间的距离。

Positional Encoding公式:
在这里插入图片描述
偶数位置的用 sin 函数编码,奇数位置的用 cos 函数编码

	思考问题一 :由上可知transformer的每个字(词)的位置用的是三角函数进行编码,那为什么选择用三角函数进行编码呢?

·
例如,假设input embedding 的维度为4 ( 实际的原模型维度是512,所以真实的X1,X2,X3 =512维 ),那么实际的positional encodings如下所示:
·
在这里插入图片描述
·
在下图中,是20个单词的 positional encoding,每行代表一个单词的位置编码,即第一行是加在输入序列中第一个词嵌入的,每行包含 512 个值, 每个值介于 -1 和 1 之间,用颜色表示出来。
在这里插入图片描述
可以看到在中心位置分成了两半,因为左半部分的值由一个正弦函数生成,右半部分由余弦函数生成,然后将它们连接起来形成了每个位置的编码向量。

·

在bert中还得位置编码还加了 Mask

15% 的WordPiece Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉的单词之后:

  • 80% 的时候会直接替换为[Mask]标签,
  • 10% 的时候将其替换为其它任意单词,
  • 10% 的时候会保留原始Token。

这么做的原因是如果句子中的某个Token 100% 都会被mask掉,那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征,否则模型就会记住这个[mask]是token ’hairy‘。至于单词带来的负面影响,因为一个单词被随机替换掉的概率只有 15%10% =1.5% ,这个负面影响其实是可以忽略不计的。

另外文章指出每次只预测 15% 的单词,因此模型收敛的比较慢。

	思考问题二:Bert 学习了位置关系就可以表示语义关系,那它是如何将无监督学习转化为有监督学习的呢?

Positional Encoding 的源码

·

## Transformer 的 Attention

ansformer 的 Attention

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。1

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.3.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. 注脚的解释 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值