文章目录 BiFormer,2023 CVPR,解决Transformer内存占用多,计算量大的问题方法:可以看作是结合b和e,分块降低计算量【自带survey,降低Transformer计算量迭代很快,避开这个方向,看看就行!】实验效果方法解释:最原始的Transformer本文:只取topK,代码,还加了dwconv 实验结果模块堆叠 from: https://www.youtube.com/watch?v=EsQba3t7Qnk BiFormer,2023 CVPR,解决Transformer内存占用多,计算量大的问题 方法:可以看作是结合b和e,分块降低计算量 【自带survey,降低Transformer计算量迭代很快,避开这个方向,看看就行!】 实验效果 方法解释: 最原始的Transformer 本文:只取topK,代码,还加了dwconv 实验结果 模块堆叠