【AI系统】AI 编译器后端优化

ZOMI酱

已于 2024-12-07 18:32:39 修改

阅读量1.3k

点赞数 12

文章标签：人工智能

于 2024-12-03 22:36:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37046057/article/details/144185073

版权

AI 编译器后端优化

AI 编译器分为多层架构，最顶层由各种 AI 训练框架编写的神经网络模型架构，一般由 Python 编写，常见的 AI 训练框架有 PyTorch、MindSpore、PaddlePaddle 等。在导入 AI 编译器时需要用对应框架的 converter 功能转换为 AI 编译器统一的 Graph IR，并在计算图级别由 Graph Optimizer 进行计算图级优化，也叫前端优化。

前端优化主要的计算图优化包括图算融合、数据排布转换、内存优化、死代码消除，这些优化是硬件无关的通用优化。在得到优化后的计算图后，将其转换为TensorIR，送入OpsOptimizer进行算子级优化，也叫后端优化，这类优化是硬件相关的，主要包括循环优化、算子融合、tiling、张量化。在算子级优化结束后，即进入代码生成阶段。本文将重点介绍 AI 编译器的后端优化相关功能。

在这里插入图片描述

后端优化

后端优化基本概念

在 AI 编译器中存在两层中间表示，相应也存在两类优化，即前端优化和后端优化。

前端优化：针对计算图整体拓扑结构优化，不关心算子的具体实现。主要优化流程为对算子节点进行融合、消除、化简，使得计算图的计算和存储开销最小。

最低0.47元/天解锁文章

博客等级

码龄8年

187
原创

3038
点赞

3539
收藏

1615
粉丝

关注

私信

热门文章

分类专栏

AI 44篇
AI系统 4篇

最新评论

【AI系统】从 CUDA 对 AI 芯片思考
征途黯然.: 如何设计一个高效且易用的编程模型，借鉴CUDA的SIMT架构，在DSA架构中实现流水编排和指令并行掩盖，以提升AI芯片的性能？
【AI系统】GPU 架构与 CUDA 关系
征途黯然.: CUDA架构下，如何优化SM中的资源分配，以最大化FP32与INT32运算单元的并发使用，同时提升Tensor Core在AI任务中的性能？
AI System AI系统对大模型的影响有多深？
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
模型压缩：剪枝算法
2401_83209713: 你好，可以咨询一下模型压缩的问题吗？期待您的回复！有偿丰厚！谢谢。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。