注意力机制就是在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤。比如我们看到了这张图,我们会首先看是什么车,这就是个不随意线索,没有随着我们的意识,是下意识的行为,然后我们发现车之后,才会去想这个车在什么环境中,这就是个随意线索,是我们有意识去主导的事情,就是我们有意识的去观测我们想要的东西。
在注意力机制中,我们把随意线索称为查询,query,简称为Q,不随意线索为键,Key,简称为K,然后每一个键都对应一个值成对出现,值,value,简称为V。我们希望通过注意力机制来有偏向性的选择值。
然后经典的里程碑式的模型,transformer,是论文Attention Is ALL You Need的模型,他的原理中自注意力如图所示,首先有T个token,被嵌入到潜空间,然后设置三个矩阵来对嵌入的向量进行空间变换,生成Q,K,V,然后Q与K进行点成,然后除以根号下D,为了减小过大方差。然后我们发现他这里使用的是层归一化。