- 博客(6)
- 收藏
- 关注
原创 《Ascend C 进阶实战:高性能通用 Softmax 算子设计、数值稳定性与多轴支持》
编写softmax.cc(调用上述 Kernel)注册算子:数值稳定性保障(减最大值)多轴支持(outer/reduce/inner 拆分)高性能归约(ReduceMax/ReduceSum 指令)完整 Host 调用与验证FP16 支持与框架集成方案2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-14 16:41:21
805
原创 《深入 Ascend C 编程:从零构建高性能 AI 算子(上)—— 基础架构与矩阵乘法实战》
本文介绍了 Ascend C 的基本架构,并通过 GEMM 算子展示了其编程模型。虽然示例代码做了简化,但已涵盖内存管理、数据搬运、计算调度三大核心要素。在下一篇文章中,我们将深入卷积算子的实现,并探讨性能分析工具(如 msprof)的使用。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
2025-12-13 17:25:12
893
原创 Ascend C 高级编程:实现带融合优化的 LayerNorm 算子》
从算法(Welford)到硬件(Vector Core)的全栈优化实现了单 pass、向量化、双缓冲的高性能 LayerNorm获得54 倍加速,验证了 Ascend C 的强大能力。
2025-12-11 22:23:08
1054
原创 《深入 Ascend C:从零构建高性能自定义算子(7000+字实战指南)》
注册自定义算子# 测试Ascend C 虽然学习曲线陡峭,但它是释放昇腾芯片全部潜能的“钥匙”。Ascend C 工程搭建数据搬运与计算流水线设计算子注册与 Python 调用性能分析方法2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
2025-12-11 21:08:20
710
原创 Ascend C 动态 Shape 算子开发实战——支持变长序列的 RMSNorm 与 RoPE 实现
本文攻克了 Ascend C动态 Shape 支持的核心难题,通过最大预分配 + 运行时裁剪策略,实现了真正实用的变长算子。LLM 推理(任意 prompt 长度);语音识别(变长音频);OCR(不同尺寸图像)。掌握此技术,可大幅提升模型部署的灵活性与鲁棒性。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-10 22:23:16
988
原创 面向 INT8 低比特推理的 Ascend C 实战——高效实现量化 GEMM 与 Dequant 算子
本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-10 22:21:18
1013
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅