深度学习笔记(十四):Transormer知识总结

最新推荐文章于 2024-04-27 20:26:40 发布

ZZY_dl

最新推荐文章于 2024-04-27 20:26:40 发布

阅读量597

点赞数

分类专栏：深度学习文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/m0_51004308/article/details/126499702

版权

深度学习专栏收录该内容

19 篇文章 23 订阅

订阅专栏

Transformer知识总结

谈谈你的理解

最开始运用在NLP中的，它就相当于一个Attention结构，它相当于将一张图片平均分割成很多窗口，每个窗口相当于NLP里面的每个词，如果在目标检测中就是每个序列，然后计算每个序列上下文关系，然后将所有的关系融入在一起，这样就能够直接获取全局信息了，而不像CNN那样需要逐步递归才能获得全局信息，也不像RNN那样速度很慢，是因为它可以并行计算。

什么是Self-attention

self-attention就是自注意机制，也就是说当前时刻的输入不止关注当前时刻的信息，还会关注其它时刻的或者说关注所有的时刻信息，计算出其相关性，得到注意力权重矩阵。

什么是Q、K、V

在这里插入图片描述
首先Attention的任务是获取局部关注的信息。Attention的引入让我们知道输入数据中，哪些地方更值得关注。
Q、K、V都源于输入特征本身，是根据输入特征产生的向量。V可以看做表示单个输入特征的向量，我们直接将V输入到网络中进行训练是没有引入Attention的网络。如果要引入Attention网络就需要通过V乘以一组权重，这个权重由Q和K计算得来，就可以做到关注局部输入特征。