资源 图解Transformer 彻底搞懂BERT 图解Transformer中需要注意的点 在图解Transformer中,要注意decoder层中的attention的计算方式与encoder略有不同,decoder中也有 q , k , v q,k,v q,k,v矩阵,但是 k , v k,v k,v矩阵是由encoders中最顶层的encoder输出经过转化后得到的, q q q矩阵由第层的decoder计算得到。