自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 《Ascend C 进阶实战:高性能 Softmax 算子设计与数值稳定性优化》

数值稳定方案(减最大值)三阶段计算流程UB/GM 协同策略性能优化建议掌握此类模式后,可扩展至LogSoftmax等更复杂算子。

2025-12-14 16:30:39 949

原创 《从零入门 Ascend C:手把手实现高性能向量加法自定义算子》

Ascend C 编程模型核心思想三级内存管理与数据搬运双缓冲流水线设计编译、部署与验证全流程掌握此基础后,可进一步挑战矩阵乘(GEMM)SoftmaxLayerNorm等复杂算子2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。

2025-12-14 16:19:11 876

原创 《Ascend C 高效内存管理实战:Unified Buffer 优化策略与 DMA 调度详解》

内存管理是 Ascend C 高性能编程的基石。UB 的 Banked 结构与对齐约束;异步 DMA 与双缓冲调度;多线程同步机制;分块累加与归约策略;开发者可将内存瓶颈降至最低,充分发挥昇腾芯片的计算潜力。本文提供的 RMSNorm 优化方案已在实际大模型推理中验证,吞吐提升2.1x。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

2025-12-13 17:39:16 969

原创 深入 Ascend C 编程:从零构建高性能 AI 算子—— 卷积优化、Winograd 实现与全链路性能调优实战》

完整的 Im2Col + GEMM 代码框架Winograd 算法的数学原理与 Kernel 设计基于 msprof 的性能调优实战指南工业部署的工程化建议未来,随着CANN 对 TVM/AutoTVM 的集成以及Ascend C 高层抽象库(如 TBE)的演进,自定义算子开发将更加高效。但无论如何,理解底层硬件行为始终是性能优化的根基。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

2025-12-13 17:34:17 753

原创 从 Ascend C 到 MindSpore:自定义算子端到端集成实战

MindSpore 支持通过Custom OP机制集成第三方算子。↓↓↓:Host 侧调度逻辑;(GPU)或xxx.cpp(Ascend C);:算子定义(输入输出规格);:Python 接口。本文打通了的完整链路,使自定义算子真正可用、可训练、可部署。这套方法论适用于任何 Ascend C 算子(GEMM、Conv、LayerNorm 等),是昇腾生态开发者的必备技能。最佳实践算子命名遵循;输入输出做 shape/dtype 校验;提供单测(ut)和性能 benchmark。

2025-12-10 20:46:35 1029

原创 极致性能调优:使用 Ascend C 实现高性能 GEMM 算子

本文通过 GEMM 算子的完整实现,展示了 Ascend C 在高计算密度算子开发中的强大能力。核心在于分块、预取、Cube 调用三者的协同。掌握此模式后,可轻松扩展至Batch GEMM、GEMV、Attention QKV 计算等场景。提示:生产环境中建议优先使用 CANN 内置算子;仅在有特殊需求(如稀疏、自定义激活融合)时才手写 Ascend C GEMM。

2025-12-10 20:41:28 1666

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除