Transfromer解读笔记

最新推荐文章于 2024-08-13 19:45:26 发布

超人睡不着也变无奈

最新推荐文章于 2024-08-13 19:45:26 发布

阅读量565

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/XINGBAIDE/article/details/127317820

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

https://www.bilibili.com/video/BV1pu411o7BE/?spm_id_from=333.788&vd_source=3fde340ea29dd912c5a18264fa4a071c

提出背景

现有时序网络rnn，lstm，都是一步步计算的过程，难以并发。算ht前，必须先计算ht-1,

无法并行，使得在计算性能上比较差
序列长的话，早期的时序信息会丢失

网络架构

编码器：长为n的xt 转化为长为n的zt（向量表示）
解码器：长为n的zt 转化为长为m的序列
编码时可以一次看到完整的句子，解码时则是自回归，t-1的输出是t时刻的输入
编码器和解码器都用了自注意力机制，point-wise，全联接层
在这里插入图片描述

解码器

输入->embedding（词嵌入成为向量表示）->加入positional_embedding（用于表示位置）
N* 表示有 n层堆叠在一起，一层称为一个Transformer Block，默认n=6, 向量维度512
具体一个Transformer Block 含有多头注意力，残差连接，和前馈神经网络，layer_normalization
编码器的输出会变为解码器的输入
在这里插入图片描述
（调参主要就调2个值。一个layer的数量（默认6），一个向量维度（512））

layerNorm

首先batchNorm如下图，把每一个小batch里的特征变为均值为0，方差为1（减掉均值，除以方差）
“把每一列做归一”
![在这里插入图片描述](https://img-blog.csdnimg.cn/ba84b9266ee84f10afeb310eaa4d22bf.png

layerNorm则是每一行做归一，下图蓝线是batchnorm，黄线是layerNorm
在这里插入图片描述

原因：样本长度会发生变化，有些句子长，有些句子短，缺失值默认添0，长度长短不一，学习和预测时的方差和均值也不再适用

编码器

和解码器基本一致，多了个masked-multi_head_attention
同样是n=6个Transformer_block 的layer组成，多头注意力，残差网络，不过解码器做的是自回归，
t时刻预测的时候无法看到t时刻之后的信息，所以多了个masked

Attention

query key value
output就是不同value的加权和，不同value的权重呢则是通过计算query和key的相似度而来的，
在这里插入图片描述
query和key等长dk，value 则为dv，q和k做内积，余弦值，越大越相近，处以根号dk

为啥要除以根号dk？因为向量长度比较大的时候，相似度算出来就会过大或过小，会很接近1或0，梯度就太小，跑不动了
在这里插入图片描述
注意力机制，一次query是可以和所有key去计算相似度的，也就是说一次性可以看到所有句子，那怎么做mask呢？
mask：对于qt和kt在某时刻之后计算的那些相似度值，用非常大的负数替换就可以了

multi_head

如上图，把原始的qkv，通过线性层把他们投影到低维度去，比如512投影到64，然后做h次的注意力计算，比较像cnn中的不同的核，不同注意力偏向不同的内容
得到h次的输出之后，把这些输出cancat起来，再回投到512去

Transformer中的注意力

在这里插入图片描述

下面两个attention区别就是mask与否，上面的attention有所变化，上面attention的key和value来自于编码器，而query来自于解码器
意味着对于解码器的每一个输出，会去编码器里头挑选它所感兴趣的东西

Feed Forward

其实就是一个全连接的前馈神经网络，MLP
有区别的地方在于它作用于序列的每一个词，每个词对应的都是同一个MLP？为什么只作用于单独的每一个词呢？因为在进入mlp之前已经进入了attention，attention已经完成了对序列信息的a g g regation
在这里插入图片描述
线性层，relu激活函数，512投影成2048，再投会512
所以实际上就是一个单隐层的MLP