自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 深入 Ascend C 编程模型:从零构建高性能 AI 算子

昇腾 NPU 采用达芬奇架构(Da Vinci Architecture),其核心计算单元是AI Core。Cube Unit:用于执行 INT8/FP16 矩阵乘累加(MatMul);:用于执行向量运算(如加法、乘法、激活函数);:用于控制流和地址计算;:片上高速缓存(通常 2MB),用于暂存输入/输出数据;L1/L0 缓存:更小但更快的本地缓存。Ascend C 的设计正是围绕这些硬件单元展开,通过显式控制数据搬运(DMA)、计算单元调度和内存布局,实现高吞吐低延迟。x1x2y。

2025-12-10 20:19:22 966

原创 Ascend C 流水线并行实战:三阶段重叠计算与数据搬运》

/ 总数据分 4 块流水线并行是 Ascend C 高性能编程的核心范式。通过将数据搬运与计算重叠,可显著提升硬件利用率。本文以 Vector Add 为例,展示了三阶段流水线的完整实现,性能提升超 2 倍。在 NPU 编程中,等待是最昂贵的操作。学会用流水线“藏”掉等待时间,你就掌握了 Ascend C 的精髓!2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

2025-12-09 18:31:51 916

原创 《Ascend C 实现高性能 Softmax 算子:数值稳定性与归约优化实战》

本文面向 AI 开发初学者和对昇腾生态感兴趣的工程师,系统介绍 Ascend C 编程模型的核心概念,包括内存管理、数据搬运、计算单元调度等,并通过一个完整的 “Vector Add” 示例,带领读者完成从环境配置、算子开发、编译到在 Atlas 设备上部署验证的全流程。全文约 6200 字。#endif本文通过一个最简单的加法算子,展示了 Ascend C 的基本开发范式。后续可尝试实现矩阵乘、Softmax 等复杂算子,逐步深入 NPU 架构细节。

2025-12-09 18:23:26 634

原创 Ascend C高性能算子开发实战——从理论到工业级部署

调用Ascend C实现的so库# 实现梯度回传通过这两篇文章的学习,相信你已经掌握了Ascend C的核心技能。从环境搭建到算子实现,再到性能优化,每一步都是通往高性能AI系统的必经之路。Ascend C不仅是编程语言,更是一种思维方式——贴近硬件、掌控细节、追求极致性能。在未来,随着大模型、边缘智能的发展,这类底层开发能力将变得愈发重要。愿你在AI的星辰大海中,乘风破浪,勇攀高峰!

2025-12-08 21:21:37 776

原创 深入理解Ascend C编程语言——从入门到实践

Ascend C是华为基于其自研AI芯片架构(Da Vinci Core)推出的底层编程接口语言,属于ACL(Ascend Computing Language)生态体系的重要组成部分。它允许开发者直接编写运行在昇腾NPU(Neural Processing Unit)上的程序,绕过高级框架(如TensorFlow或PyTorch)的抽象层,从而获得极致的性能控制能力。与传统的CUDA或OpenCL不同,Ascend C并非完全独立的语言,而是对标准C语法的扩展,融合了特定于AI计算的指令集和数据类型。

2025-12-08 21:19:43 1259

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除