深度解读昇腾CANN小shape算子计算优化技术，进一步减少调度开销

昇腾CANN

于 2024-07-19 10:45:45 发布

阅读量915

点赞数 25

文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71340392/article/details/140542253

版权

GE（Graph Engine）将模型的调度分为Host调度与下沉调度两种模式。经过上期的介绍我们知道，在模型为静态shape时，由于其输入tensor shape固定不变，在编译时就能确定所有算子的输入输出shape，并能提前完成模型级内存编排、tiling计算等Host调度工作，因此采用模型下沉调度方式可以将整个模型下沉到Device侧执行，从而提升模型调度性能。

与之对应的，在模型为动态shape的情况下，由于输入tensor shape不确定，需要在上一个算子完成shape推导后，才能确定下一个算子的输入shape等信息，因此无法将整个模型下沉执行，只能采用Host调度模式。

1 Host调度简介及优化背景

所谓Host调度，是指模型的调度主体位于Host CPU，由CPU完成逐算子调度。一个算子的调度任务为kernel执行准备必要参数，通常包含shape推导、tiling、内存分配、launch等。

Host调度模式下，GE将模型中算子的执行单元划分为Host CPU执行与Device（昇腾AI处理器）执行两大类。对于卷积、MatMul等对算力要求高的算子，会被划分到Device执行；而由于shape信息在Host CPU维护，Shape、Reshape等算子更适合被划分到Host CPU执行；除此之外，还有一些算子，在shape较小时，计算量也很小，调度开销往往大于算子的实际计算开销，就需要考虑如何

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。