顺序的计算,越少越好,下一步计算必须要等前面多少步完成。在算一个layer的时候,越不等,并行度越高。
maximum path length:信息从一个数据点到另一个数据点要走多远。越短越好。
complexity per layer:O(n^2*d),n是序列的长度,d是向量的长度。自注意力就是几个矩阵做运算,其中一个矩阵是query矩阵乘以key的矩阵,query矩阵有n行,列数是d(维度是d),key也是n*d。两个矩阵一乘的话,算法复杂度就是n方乘d。
顺序的计算,越少越好,下一步计算必须要等前面多少步完成。在算一个layer的时候,越不等,并行度越高。
maximum path length:信息从一个数据点到另一个数据点要走多远。越短越好。
complexity per layer:O(n^2*d),n是序列的长度,d是向量的长度。自注意力就是几个矩阵做运算,其中一个矩阵是query矩阵乘以key的矩阵,query矩阵有n行,列数是d(维度是d),key也是n*d。两个矩阵一乘的话,算法复杂度就是n方乘d。