Transformer代码分析


初学者出没,请大家不吝赐教,不胜感激!

参考文档:https://cloud.tencent.com/developer/article/1526327

0 词向量

1、[https://zhuanlan.zhihu.com/p/47787947] (参考文档)
2、 帮助理解词向量如果实现
3、https://zhuanlan.zhihu.com/p/89637281
4、https://fanrenyi.com/blog/468
在这里插入图片描述
词如何编码? 使用的是霍夫曼树。
这样就可以将词语进行编码表示,放到向量里面
向量的维数是什么?
用词向量来表示词并不是word2vec的首创,在很久之前就出现了。最早的词向量是很冗长的,它使用是词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。比如我们有下面的5个词组成的词汇表,词"Queen"的序号为2, 那么它的词向量就是(0,1,0,0,0)。同样的道理,词"Woman"的词向量就是(0,0,0,1,0)。这种词向量的编码方式我们一般叫做1-of-N representation或者one hot representation.
在这里插入图片描述
那么one-hot编码有什么缺点呢?
维度灾难
一般情况下,常用英语单词约8000个,如果使用one-hot编码,每个词向量就是8000维;对应的如果有100000个词,那么每个词向量就是100000维。在实际应用中,词向量维度太大,会造成网络参数量大、网络推理速度慢、网络运行占用内存高等问题。

编码过于稀疏
在one-hot编码的词向量中,数值几乎全部是0,非常稀疏,很可能导致实际中网络难以收敛。

无法表示词间的关系
那么不禁要问:有没有一种神经网络,输入每个词的one-hot编码,就可以输出符合上述要求的词向量?有,就是word2vec!

word2vec是一个典型的3层全连接网络:INPUT->PROJECTION->OUTPUT,假设:

INPUT层->PROJECTION层权重为W1 矩阵
PROJECTION层->OUTPUT层权重为 W2 矩阵
W1和W2通过训练得到
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

比如下图我们将词汇表里的词用"Royalty",“Masculinity”, "Femininity"和"Age"4个维度来表示,King这个词对应的词向量可能是(0.99,0.99,0.05,0.7)。当然在实际情况中,我们并不能对词向量的每个维度做一个很好的解释。
在这里插入图片描述

1 模型的思想

Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。 作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题。

Transformer的提出解决了两个问题:
  (1) 首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量;
  (2) 其次它不是类似RNN的顺序结构,因此具有更好的并行性,符合现有的GPU框架。

2 模型的架构

在这里插入图片描述
N*指的是所有的encoder和decoder有多个

Encoder部分

1、输入

输入有两部分input Embedding + Position Embedding
input Embedding :word2vec,就是用一个数值向量来表示一个对象的方法
Position Embedding: 使用三角函数sin,cos来进行位置编码

2、注意力机制:关注该关注的

https://zhuanlan.zhihu.com/p/455066289
由h个Self Attention 层并行组成,原文中h=8
在这里插入图片描述
softmax之后值都介于0到1之间,可以理解成得到了 attention weights。然后基于这个 attention weights 对 V 求 weighted sum 值 Attention(Q, K, V)。

3、Add&Norm

add指的是残差
normalize:指的是归一化

4、feed forward:全连接

Feed-Forward Network可以细分为有两层,第一层是一个线性激活函数,第二层是激活函数是ReLU

5、d_model

词嵌入中的维数是指这些向量的长度
https://zhuanlan.zhihu.com/p/53958685
在这里插入图片描述

max_len

在这里插入图片描述

自注意力机制

出现的契机
因为在注意力机制中,每个输入权重一样,导致计算精度不高

在这里插入图片描述
有注意力的情况
在这里插入图片描述

输入相当于查询输入的关键字,例如我要查本平凡的世界这本书
encoder相当于数据库,我把相关的商品列出来,出现一个c1权重表
然后权重和输入进行softmax,就是decoder中进行的,输出结果就是我想要的attention,也就是我的那本书
我喜欢你这四个字相当于四种商品,每一种都会进行搜索查询清单,

自注意力机制层的mask

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值