mlp与attention的计算时间复杂度分别为多少?PAtchtst为啥patch后为啥attention计算量降低?

感谢分享
看这篇博客的时候,因为patch后做了一个fc的映射,也是有计算的消耗嘛,好奇为什么说patchtst能够减小“注意力图的内存使用和计算复杂度减少了S倍,从而在计算资源有限的情况下允许模型查看更长的历史序列。“ 所以思考了一下,问了一下GPT,看了一下GPT的分析,先上结论:
随着序列长度 𝐿 的增加,Attention的计算复杂度会比MLP高很多。对于较长的序列,Attention的复杂度会迅速增长,而MLP的复杂度保持相对稳定。那么这种情况下,假设d << L,那么这种情况下mlp的映射计算量相对于没映射前做处理的L直接做Attn的计算量小多了。

并且要注意只是说attn的计算量降低了,或者整体的降低了,但是引入了mlp的计算,不过这种计算是牺牲小挽救大局。

在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值