在深度学习中,Transformer架构被广泛使用,而它所基于的注意力机制是最核心的部分,今天我们来讲一讲注意力机制到底是一种什么样的机制。
一、注意力(Attention)框架
19世纪90年代,美国心理学家威廉·詹姆斯(William James)提出了视觉注意力的工作原理类似于聚光灯,他认为:我们在日常中会聚焦一些事物,在这个焦点上可以清楚地看到一些物体;而在这个焦点周围的区域(称为边缘)仍然可见其他一些物体但不是很清楚。基于这个注意力的原理,后来提出了双组件(two‐component)的框架,其中两个非常重要的概念就是:非自主性提示和自主性提示,通过这两种方式都能够引导我们注意力关注焦点的改变。
(1)非自主性提示
我们在所处环境中,时刻都能不由自主地目及一些事物,还有另外一些事物,这时进入视觉系统的物体如果有特别突出的特征,我们就会将注意力的焦点放在其上面,如下图所示:
上面指定了 5 个物品:一份报纸、一篇论文、一杯咖啡、一个笔记本、一本书,其中装有红色咖啡的杯子的特征最突出,我们不自主地看向这些物品时会把注意力焦点放到咖啡杯上面,通过默认的提示选择了所关注的物品,它应该并不受我们意识控制,这就是非自主提示。
(2)自主性提示
自主提示,就是我们有意识地将注意力改变,选择聚集到一个并非是由于特征突出才关注的物体上。当我们可以将注意力焦点改变时,比如从上图显眼突出的红色咖啡杯,将注意力集中到最下面的一本书上,这时相当于强制给了大脑一个暗示,要将注意力焦点转移到一本书上,如下图所示:
使用神经网络来设计注意力机制的框架,就是基于上述非自主性提示和自主性提示的原理,来选择要聚焦的观察对象。具体抽象出来的元素就是最基本的 Key、Query、Value,如下所示:
-
Keys(键):在非自主提示下,进入视觉系统的的所有元素的线索,称为 Keys。
-
Query(查询):在自主提示下,自主提示的内容或元素的线索,称为 Query。
-
Values(值):在由自主提示 Query 限制或者强制下改变注意力的焦点,也就是经过从 Keys 中进行匹配 Query,所得到的进入视觉系统的内容,称为 Values。
注意力机制的框架,可以用下图来表示:
上图表达了:
在注意力机制中,Key 和 Value 是成对的,而 Query 及其查询的结果是前面所有 Keys/Values 对的一个子集。
通过注意力汇聚(Attention Pooling)将 Query(自主性提示)和Keys(非自主性提示)结合在一起,实现对 Values(感官输入)的选择。
二、注意力汇聚(Attention Pooling)
通过上面说明注意力的框架,接下来要理解注意力是如何进行汇聚(Pooling)的,即通过什么样的过程使我们的视觉系统聚焦到了最后的物体上(如上面部分:将没有特别突出特征的一本书作为焦点)。从直观感觉上来说,貌似应该是 Query 与 Keys 越接近的话,注意力越集中,也就是说权重越大。
使用 Nadaraya–Watson 核回归模型,能够非常清楚地解释注意力机制。Nadaraya 和 Watson 提出,根据输入位置来对输出进行加权,则可以得到下面的公式推导:
其中,在推导的第二步代入了高斯核(Gaussian kernel)函数(也可以使用其它的核函数:Boxcar/Constant/Epanechikov,具体说明可以参考这里https://d2l.ai/chapter_attention-mechanisms-and-transformers/attention-pooling.html#kernels-and-data)。
上面公式中,x 对应于 Query,xi 对应于 Key。如果 xi 越是接近 x,则分配给 xi 这个 Key 所对应的结果 yi 的权重就越大。同样可以推导出,一个 Key 越接近给定的 Query,那么分配给这个 Key 对应的 Value 的注意力权重就会越大,即获得了更多的注意力。
上面公式给出了对注意力汇聚(Attention Pooling)的建模:通过使用 x 与 xi 之间关系的来表示注意力的权重 α(x-xi),即使用 Query 与 Key 之间关系表示注意力汇聚(Attention Pooling)。可以看出,它是不带参数的注意力汇聚(Attention Pooling)模型,对应带参数的注意力汇聚(Attention Pooling)模型,也可以同样推导出来,如下所示:
其中,公式中的 w 是参数,这个参数 w 可以通过学习得到,所以使用带参数的注意力模型也能够对注意力汇聚(Attention Pooling)进行同样的建模。
上面,使用高斯核来对 Query 和 Key 之间的关系建模,高斯核指数部分可以视为注意力评分函数(Attention Scoring Function),然后把该数的输出作为后面 Softmax 函数的输入进行计算,这样将得到与 Key 对应的 Value 的概率分布(即注意力权重)。最后,注意力汇聚(Attention Pooling)的输出就是基于这些注意力权重的值的加权平均和。
计算注意力汇聚(Attention Pooling)结果的过程,如下图所示:
前面我们使用 Nadaraya–Watson 核回归模型,使用了一个高斯核 α(q, k) 基于相似度来评估注意力权重,注意力评分函数(Attention Scoring Function)如下所示:
不带指数部分的表达式,如下所示:
进而,注意力汇聚(Attention Pooling)函数可以表示为:
选择不同的注意力评分函数,会导致不同的注意力汇聚(Attention Pooling)操作。
三、自注意力(Self-Attention)
从形式上看,给定一个由 Token 组成的输入序列 x1, x2,…, xn,该序列的自注意力输出序列为 y1, y2,…, yn,根据注意力汇聚(Attention Pooling)公式:
我们可以得到 yi 的表达式为:
在自注意力中,Query、Keys 和 Values 都来自同一组输入,所以称为自注意力(Self-Attention)。通过下面的动态图像中提供的句子,我们可以理解一下自注意力(Self-Attention)的原理:
当聚焦到前面一列头部的某个 Token 时,它会在后面一列(也是同一个句子中的 Token 序列)找到与该 Token 更相关的其它 Token,或者可以说句子中的每个 Token 都与前面当前所聚焦 Token 有一个相关数值,值越大表示越相关,对应的注意力权重也越大。当然,同一个 Token 与它自己最相关,通常相关值最大。
四、多头注意力(Multi-Head Attention)
多头注意力(Multi-Head Attention)融合了来自于多个注意力汇聚(Attention Pooling)的不同知识,虽然它使用的是相同的注意力机制,但是能够比单个注意力汇聚(Attention Pooling)学习到更多的行为,比如,在句子内部能够捕获可变范围的多个依赖关系。
下面使用全连接层(FC)作为 Head,多个全连接层依次连接形成多头注意力(Multi-Head Attention),如下图所示:
上图中,在实践中是可以实现对多头注意力的多个 Head 进行并行计算处理的。
为了更形象的说明多头注意力,我们引用一个三维的说明图片(来自 peltarion.com),更直观地理解,如下图所示:
输入序列(如一个句子),其中的每个 Token 都获取到对应的 Word Embedding,然后输入到神经网络中(比如 Transformer 架构的网络)。在这个过程中,每一个 Head 都可以自己独立地去学习得到自己独有的特征,类似于只有一个 Self-Attention 的情况。而多个 Head 并行学习过程中,可能相当于有多个 Self-Attention 的情况,整体来看 Query、Keys、Values 在不同的 Head 上都可能会有部分互相不同,从而学习到的特征也就不同。
比如,在机器翻译任务中,使用多头注意力能够学习并捕捉到输入序列中的不同类型信息:一个注意力头可能学习句子的语法结构,而另一个注意力头可能学习句子中的于语义信息,这样更有利于模型生成准确、自然的翻译结果,从而提高了模型的性能。
五、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】