好的视频:点击进入
注意力机制简介
人类视野开阔,但焦点只有小范围或者一个点,这个就叫注意力
。在当前计算机算力资源的限制下,注意力机制绝对是提高效率的一种必要手段,将注意力集中在有用的信息上,不要在噪声中花费时间。
注意力机制的本质思想:
从概念上理解attention仍然可以理解为从大量信息中有选择的筛选出少量重要信息并聚集到这些重要信息
上,忽略大多不重要的信息。聚集的过程体现在【权重系数】的计算上,权重越大越聚焦于其对应的Value
值上,即权重代表了信息的重要性,而Value
是其对应的信息。
注意力机制架构
Query(查询)
是一个向量,用于表示注意力机制当前所关注的部分,在每个时间步骤,注意力机制都会根据输入的Query对输入数据进行加权处理。Key(键)
是一个向量,用于表示输入数据中的某个特征,通常是通过矩阵乘法和非线性变换得到的结果。Value(值)
是一个向量,用于表示输入数据中的具体数值或特征。
attention机制的具体步骤:
-
根据Query和Key计算两者的相似性和相关性。
-
可以引入不同的函数和计算机制,根据Query和某个Key,计算两者的相似性或者相关性。
-
常见方法:
-
求两者的【向量点积】
-
求两者的向量【Cosine相似性】
-
引入额外的神经网络来求值
-
-
-
对上一步的原始分之进行softmax归一化处理。
-
根据权重系数对Value进行加权求和。