self-attention RNN CNN时间复杂度

下文推导的前提:

n:输入序列长度

d:embedding的大小

1.self-attention 时间复杂度

上图为 n×n的矩阵A和 n×n的矩阵B相乘的时间复杂度

同理

n×d的矩阵Q和 d×n的矩阵KT相乘的时间复杂度 为 O(n^2 d)

n×n的矩阵softamx(Q*KT)和 n×d的矩阵V相乘的时间复杂度 为 O(n^2 d)

而softmax(n×n)的时间复杂度为 O(n^2)

所以self-attention最终的时间复杂度为 O(n^2 d)(选最大的)

2.CNN 时间复杂度

有一定的前提条件:要求输入和输出的大小相同 为 n×d

                                卷积核 kernel 大小为 k×d

则有——需要对输入 n×d 进行padding ,加(k-1)行

               同时需要 d 个核

然后一个核的复杂度为 O(kd),n行为 O(nkd),d列为 O(nk d^2)

3.RNN 时间复杂度

其实这个我也不是很清楚,找了一个RNN的计算图

 RNN计算公式为

                        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​      

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​       

 self-attention中计算复杂度大致就是这样了,时间复杂度有时候看不出来的话,还是要写一写,自己感觉还是写成代码比较直观。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值