传统RNN模型:无法并行, Transformer架构,注意力机制 传统word2vec:不同语境上下文 self-attention机制q,k,v三种矩阵 softmax归一化 multihead多头机制(提取多种特征)