sequential operations与maximum path length

顺序的计算,越少越好,下一步计算必须要等前面多少步完成。在算一个layer的时候,越不等,并行度越高。

maximum path length:信息从一个数据点到另一个数据点要走多远。越短越好。

complexity per layer:O(n^2*d),n是序列的长度,d是向量的长度。自注意力就是几个矩阵做运算,其中一个矩阵是query矩阵乘以key的矩阵,query矩阵有n行,列数是d(维度是d),key也是n*d。两个矩阵一乘的话,算法复杂度就是n方乘d。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值