transform学习入门视频及及摘要

大佬录的,其他人的,我看一遍就大概明白的强推!

视频

资料

1.来源:谷歌大脑发布的《Attention is all you need》。

属于seq2seq的模型,之后衍生出了bert。

2.seq2seq(一种重要的 RNN 模型,也称为 Encoder-Decoder 模型):

参考
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
三种 Seq2Seq 模型的主要区别在于 Decoder,他们的 Encoder 都是一样的:
在这里插入图片描述

2.transformer和SLTM的区别:

在这里插入图片描述
同时训练的话,就带来了一个问题,因为字的顺序是会对语义造成影响的,所以:需要在词向量中表明位置信息。

3.bert与训练模型,只是用到了编码器部分,然后适配给五花八门的任务。

4.模型总览:

在这里插入图片描述

5.第一步:转化为词向量:

在这里插入图片描述
句子的个数,句子的长度,词向量的长度

6.positional encoding:

经过位置嵌入得到的向量的维度和词向量的维度是一样的,因此可以直接相加。
在这里插入图片描述
在这里插入图片描述

7.Multi-Head Attention:

Attention:

在这里插入图片描述
对单个句子分配三个权重,分别是Wq,Wk,Wv,单个句子的矩阵乘以三个权重矩阵,得到了三个不同的矩阵,但是维度与乘之前单个句子的矩阵是相同的。

在这里插入图片描述
引入一个超参数,必须可以整除embeding dim
因为分成了多个,所以叫做多头注意力机制。
在这里插入图片描述
注意这个转置。意义发生了变化。
在这里插入图片描述

对向量乘法有了很深入的理解:

如上图所示,右侧的阴影部分的值相当于是由两个向量相乘得到的,值越大,说明两个向量的夹角越小,说明两个向量越相似。所以结果的那个矩阵可以表示关联性
Q 乘以 K的转置:

在这里插入图片描述
除以根号的原因是把注意力矩阵缩放回标准的正太分布,可以获得更好的梯度。
softmax是使得每一行的和为1

到此为止,我们用Q和K求出了注意力矩阵。

然后进行如下:
在这里插入图片描述
注意这样相乘的意义,使得向量获取到所有字的信息。
在这里插入图片描述

8.改进的地方:

由于句子长度的长度不一样,我们得到的每个句子中可以有些向量是进行全零填充的,
比如下图的阴影部分就是因为全零填充得到的注意力矩阵中全为0的部分。
虽然现在为0,但是我们使用softmax之后这些位置就不为0了。因为是e的多少次方。
也正因为是e的多少次方,我们想消除因为0产生的影响时,可以给这些区域很大的负数偏执,这样sotfmax之后,得到的概率也是基本0,产生的影响就比较小了。

在这里插入图片描述

在这里插入图片描述

9.ADD:残差连接。

神经网络深度较深,可以防止梯度消失的情况。
梯度跨层传播。

10.norm:在这里插入图片描述

在这里插入图片描述

没有讲的Masked Multi-Head Attention中的Mask:

参考

对应的mask矩阵:
在这里插入图片描述
在这里插入图片描述

注意:是在Q * K的转置之后做的。
在这里插入图片描述

feed forward

在这里插入图片描述

其他感觉较好的参考,还没看:

1
官方教程

decoder部分:

decoder的第一个masked的自注意力机制上面已经写过:
在这里插入图片描述
仔细观察图,decode部分在进行atten的时候,两个箭头来自encoder(K V),一个箭头来自decoder的masked atten的结果。(Q)
自己想想,还是有一定道理的。

decode的运作过程:

视频

模型的多层结构:

注意看decoder部分,每次接受上一层的decoder的输出和encoder的输出,原因应该就是在计算self-atten的时候需要用到吧。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值