- 博客(6)
- 收藏
- 关注
原创 《Ascend C 进阶实战:高性能 Softmax 算子设计与数值稳定性优化》
数值稳定方案(减最大值)三阶段计算流程UB/GM 协同策略性能优化建议掌握此类模式后,可扩展至LogSoftmax等更复杂算子。
2025-12-14 16:30:39
949
原创 《从零入门 Ascend C:手把手实现高性能向量加法自定义算子》
Ascend C 编程模型核心思想三级内存管理与数据搬运双缓冲流水线设计编译、部署与验证全流程掌握此基础后,可进一步挑战矩阵乘(GEMM)SoftmaxLayerNorm等复杂算子2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
2025-12-14 16:19:11
876
原创 《Ascend C 高效内存管理实战:Unified Buffer 优化策略与 DMA 调度详解》
内存管理是 Ascend C 高性能编程的基石。UB 的 Banked 结构与对齐约束;异步 DMA 与双缓冲调度;多线程同步机制;分块累加与归约策略;开发者可将内存瓶颈降至最低,充分发挥昇腾芯片的计算潜力。本文提供的 RMSNorm 优化方案已在实际大模型推理中验证,吞吐提升2.1x。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-13 17:39:16
969
原创 深入 Ascend C 编程:从零构建高性能 AI 算子—— 卷积优化、Winograd 实现与全链路性能调优实战》
完整的 Im2Col + GEMM 代码框架Winograd 算法的数学原理与 Kernel 设计基于 msprof 的性能调优实战指南工业部署的工程化建议未来,随着CANN 对 TVM/AutoTVM 的集成以及Ascend C 高层抽象库(如 TBE)的演进,自定义算子开发将更加高效。但无论如何,理解底层硬件行为始终是性能优化的根基。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-13 17:34:17
753
原创 从 Ascend C 到 MindSpore:自定义算子端到端集成实战
MindSpore 支持通过Custom OP机制集成第三方算子。↓↓↓:Host 侧调度逻辑;(GPU)或xxx.cpp(Ascend C);:算子定义(输入输出规格);:Python 接口。本文打通了的完整链路,使自定义算子真正可用、可训练、可部署。这套方法论适用于任何 Ascend C 算子(GEMM、Conv、LayerNorm 等),是昇腾生态开发者的必备技能。最佳实践算子命名遵循;输入输出做 shape/dtype 校验;提供单测(ut)和性能 benchmark。
2025-12-10 20:46:35
1029
原创 极致性能调优:使用 Ascend C 实现高性能 GEMM 算子
本文通过 GEMM 算子的完整实现,展示了 Ascend C 在高计算密度算子开发中的强大能力。核心在于分块、预取、Cube 调用三者的协同。掌握此模式后,可轻松扩展至Batch GEMM、GEMV、Attention QKV 计算等场景。提示:生产环境中建议优先使用 CANN 内置算子;仅在有特殊需求(如稀疏、自定义激活融合)时才手写 Ascend C GEMM。
2025-12-10 20:41:28
1666
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅