对于输入的序列 来说,与RNN/LSTM的处理过程不同,Self-attention机制能够并行对
进行计算,这大大提高了对
特征进行提取(即获得
)的速度。结合上述Self-attention的计算过程,并行计算的原理如下图所示:
Multi-headed Self-attention(多头自注意力)机制介绍
于 2023-06-15 09:45:08 首次发布
对于输入的序列 来说,与RNN/LSTM的处理过程不同,Self-attention机制能够并行对
进行计算,这大大提高了对
特征进行提取(即获得
)的速度。结合上述Self-attention的计算过程,并行计算的原理如下图所示: