深度学习——Transformer的理解整理

William.csj

已于 2024-04-24 14:50:13 修改

阅读量1.1k

点赞数 28

分类专栏：科研文章标签：深度学习 transformer 人工智能

于 2024-04-22 20:33:52 首次发布

本文链接：https://blog.csdn.net/Williamcsj/article/details/138090625

版权

科研专栏收录该内容

54 篇文章 0 订阅

订阅专栏

文章探讨了Transformer模型中Q、K、V在机器翻译、车道线检测、目标检测等任务中的角色，强调Q与具体任务相关，K和V则代表关注的物理量。文章还解释了注意力机制如何在搜索引擎、字典查找等场景中体现，以及向量表示的重要性。

摘要由CSDN通过智能技术生成

一、答主1

机器翻译

transformer刚被提出的时候就是被用于处理机器翻译的。在transformer架构中的不同位置Q，K，V指代的变量是不一样的。
假设现在处理的是英文->德文的翻译任务。

在encoder的输入端，这里执行的是self-attention，Q、K、V 都是指代英文的embedding。
在decoder的输入端，这里执行的是masked self-attention，Q、K、V 都是指代德文的embedding。
在encoder的输出端和decoder的某个layer的输出进行交互的时候，也就是执行cross-attention的时候，Q指代的是德文的embedding，K、V指代英文的embedding。

车道线检测

在CLRNet中也用到了transformer的结构，这里的QKV就可以指代不同的东西了。Q指代了车道线的特征，K、V指代的是图像的feature map，来计算车道线特征对图像全局特征的注意力情况。

目标检测

用DETR做检测，Q就指代了object query，它是模型权重的一部分，也就是可学习的参数。K、V同样指代了图像的feature map。

从以上3个不同的任务可以更加直观的去理解Q、K、V根据不同任务，指代的物理量是不一样的，也可以更加深入的去理解它的计算过程，和其背后的注意力机制的思想。所以Q这个变量一般同具体的任务有关，而K、V两个变量是Q想要关注的物理量。transformer这种结构能够在不同领域都能使用，可见它的通用性。

二、答主2

问题搜答案

你有一个问题Q，然后去搜索引擎里面搜，搜索引擎里面有好多文章，每个文章V有一个能代表其正文内容的标题K，然后搜索引擎用你的问题Q和那些文章V的标题K进行一个匹配，看看相关度（QK —>attention值），然后你想用这些检索到的不同相关度的文章V来表示你的问题，就用这些相关度将检索的文章V做一个加权和，那么你就得到了一个新的Q’，这个Q’融合了相关性强的文章V更多信息，而融合了相关性弱的文章V较少的信息。这就是注意力机制，注意力度不同，重点关注（权值大）与你想要的东西相关性强的部分，稍微关注（权值小）相关性弱的部分。

三、答主3

查字典

假想你有一个map/dict或者其他名字，一个key对应一个value，在检索的时候，给定query，如果query in map，就是query等于其中一个key，就返回对应的value。这个方法太hard了，有就是有，没有就是没有。对于qkv都是向量的情况，这种方法不可行，只能让它变soft，那就是算一算query和key的关系，按照比例对value加和，这和max变成softmax有异曲同工之妙。

可能更类似于插值，比如你去爬山，半山腰想知道自己的海拔，周围有远有近有高有低好几个海拔参考点，你通过它们来估计自己的海拔，当然是越近越有参考作用，也就是注意力系数越大。要是估算错了怎么办？幸好你爬到山顶有真实海拔，估算错误就修正，顺便把之前你参考的那些值也修正了。爬山的人越多，修正的次数越多，那些参考值越准确。