深度学习笔记(十四):Transormer知识总结

谈谈你的理解

最开始运用在NLP中的,它就相当于一个Attention结构,它相当于将一张图片平均分割成很多窗口,每个窗口相当于NLP里面的每个词,如果在目标检测中就是每个序列,然后计算每个序列上下文关系,然后将所有的关系融入在一起,这样就能够直接获取全局信息了,而不像CNN那样需要逐步递归才能获得全局信息,也不像RNN那样速度很慢,是因为它可以并行计算。

什么是Self-attention在这里插入图片描述

self-attention就是自注意机制,也就是说当前时刻的输入不止关注当前时刻的信息,还会关注其它时刻的或者说关注所有的时刻信息,计算出其相关性,得到注意力权重矩阵。

什么是Q、K、V

在这里插入图片描述
首先Attention的任务是获取局部关注的信息。Attention的引入让我们知道输入数据中,哪些地方更值得关注。
Q、K、V都源于输入特征本身,是根据输入特征产生的向量。V可以看做表示单个输入特征的向量,我们直接将V输入到网络中进行训练是没有引入Attention的网络。如果要引入Attention网络就需要通过V乘以一组权重,这个权重由Q和K计算得来,就可以做到关注局部输入特征。

  • V:输入特征的向量 Q和K:计算Attention权重的特征向量。
  • Attention机制中的Q,K,V:我们对当前的Query和所有的Key计算相似度,将这个相似度值通过Softmax层进行得到一组权重,根据这组权重与对应Value的乘积求和得到Attention下的Value值。

什么是Multi-head attention

在这里插入图片描述
multi-head attention是多个自注意机制模块,通过对self-attention赋予不一样的权重,来得到不一样的结果,并把所有的attention结果拼接起来,通过一个全连接层得到最终结果,从而有助于捕捉到更丰富特征。

什么是位置编码,解决什么问题

由于同一张映射图,目标在不同的位置,Transormer中attention机制并没有包含其位置信息,是不能够进行有效区分的,比如说最简单的我喜欢你和你喜欢我是不一样的结果,所以我们通过加入了位置编码,这样就能够区分到底是谁喜欢谁这一问题,也就是说模型可以考虑前后位置的关系。

如何理解transformer的并行运算

最核心的在multi-head attention ,多组KQV进行self-attention运算,它们是可以同时运算的,由于使用同步运算,所以对于硬件要求比较高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZZY_dl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值