MultiHeadAttention多头注意力作为Transformer的核心组件,其主要由多组自注意力组合构成。
1. self-Attention自注意力机制
在NLP任务中,自注意力能够根据上下文词来重新构建目标词的表示,其之所以被称之为注意力,在于从上下文词中去筛选目标词更需要关注的部分,比如"他叫小明","他"这个词更应该关注"小明"这个上下文。
上图提示了一个输入为两个单词[Thinking, Matchines]的序列在经过自注意力构建后的变换过程:
- 通过Embeding层,两个单词的one-hot向量转换为embedding向量X=[x1, x2]
- 通过三组矩阵运算得到query、key、value值,这三组矩阵的输入都是原来同一个输入向量[x1,x2],这也是被称之为自注意力的原因。
- 计算query、key间的相似度得分,为了提升计算效率,此处采用缩放点积注意力,其需要query、key向量的维度是相等的,并且都满足零均值和单位方差,此时得分表示:
- 对相似度得分矩阵求softmax进行归一化(按axis=1维进行),在实际中由于进行transformer中的输入序列要求是定长的,因此会有补余向量,此时这里softmax会有一个掩蔽操作,将补余部分都置为0。