为了更好地表示句子的内在含义,本文提出了一种 self-attention mechanism , 可以从 r(超参数)个方面刻画句子的特性。不同于其他的使用attention的任务,本文只有一个input,对该句子进行 self-attention
模型由两部分组成(1)bilstm
, H 的矩阵大小是n*2u
(2) self-attention mechanism
attention的矩阵A的求解过程是上面图1的右半部分,每个参数的大小以及解释在下面
为了更好地表示句子的内在含义,本文提出了一种 self-attention mechanism , 可以从 r(超参数)个方面刻画句子的特性。不同于其他的使用attention的任务,本文只有一个input,对该句子进行 self-attention
模型由两部分组成(1)bilstm
, H 的矩阵大小是n*2u
(2) self-attention mechanism
attention的矩阵A的求解过程是上面图1的右半部分,每个参数的大小以及解释在下面