【知识储备】多头注意力机制的作用&为什么要多头
多头注意力机制的作用&为什么要多头多头注意力机制是对注意力机制的拓展,根据不同位置的上下文信息,为每个词分配不同的权重。它将隐状态向量分成多个头,每个头形成一个子语义空间。每个头可以关注不同维度的语义空间信息。这样,模型可以同时捕捉到不同类型的特征,丰富了模型的表达能力。比如,一个头可以关注词义,另一个头可以关注词性,再一个头可以关注词的位置等等。比如,不同的头会关注图像中不同的区域好处:多头注意力机制通过分割子语义空间,让模型可以关注不同维度的信息,从而提高了模型的表达能力和注意力
复制链接