自注意力Self-attention
处理vactor sequence,考虑的是整个sequence的信息,并且输入多少个向量得到多少个label:
首先是输入向量之间的相关度计算,视频中提到的方法如上,W是训练出来的矩阵。
用上述方法计算出q,k值,从而整个输入序列向量与a1之间的相似度α。
注意此处,输入向量a1
自注意力Self-attention
处理vactor sequence,考虑的是整个sequence的信息,并且输入多少个向量得到多少个label:
首先是输入向量之间的相关度计算,视频中提到的方法如上,W是训练出来的矩阵。
用上述方法计算出q,k值,从而整个输入序列向量与a1之间的相似度α。
注意此处,输入向量a1