
cuda
文章平均质量分 93
kingking44
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
谈一谈TVM编译工程师的修炼手册
TVM 之所以被称为编译器,是因为它提供了从模型表示到硬件特定代码生成的完整编译链。在这个过程中,TVM 执行了诸如优化、调度、代码生成等传统编译器的任务,并最终生成了可以在目标硬件上高效运行的代码。每次加载和运行 ONNX 模型时,如果有变化或需要优化,可能会重新编译代码以适应新的硬件配置或运行时环境。编译工程师的工作涉及编译器的开发、硬件适配、代码优化以及性能调优等多个方面。特别是在 NPU 这样的硬件平台上,编译工程师的工作对充分利用硬件资源、提升深度学习模型的执行效率至关重要。原创 2024-08-15 09:50:53 · 1317 阅读 · 0 评论 -
计算图优化有哪些=>举例说明
计算图优化在提升深度学习模型执行效率上发挥着至关重要的作用。TVM通过多种优化策略,如常量折叠、算子融合、子图分割和内存优化,实现了高效的模型推理能力。相比于框架级和手写代码优化,TVM提供了更高的灵活性和自动化能力,特别适合异构计算环境和不同硬件后端的需求。原创 2024-08-14 15:14:01 · 811 阅读 · 0 评论 -
简述cuBLAS相关函数原型(附属工具): 矩阵乘法函数 `cublasSgemm` 和 `cublasDgemm` + 复数矩阵乘法函数 `cublasCgemm` 和 `cublasZgemm`
这两行代码将和重定向到它们的 v2 版本和。这样,当程序中调用或时,实际上调用的是 v2 版本。这两行代码将和重定向到它们的 v2 版本和。这样,当程序中调用或时,实际上调用的是 v2 版本。原创 2024-07-29 10:38:54 · 1111 阅读 · 0 评论