自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 深入昇腾 Ascend 910B 架构与 MindSpore 开发实战:从模型训练到推理部署全流程详解

使用 MindSpore 提供的昇腾 Ascend 910B 配合 MindSpore 和 CANN,提供了一套完整的国产 AI 开发生态。从模型训练到推理部署,开发者可以充分利用其高算力、低延迟、高能效的优势。随着生态的不断完善,昇腾正成为大模型时代不可或缺的基础设施。附:完整代码仓库GitHub:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

2025-12-12 22:02:00 1819

原创 《大模型推理流水线的艺术:用 Ascend C 构建 0 停顿的多阶段推理引擎》

大模型推理不是“跑通就行”,而是系统工程的艺术。通过 Ascend C 的细粒度控制,我们得以打破 Prefill-Decode 的壁垒,构建真正高效的推理流水线。这不仅是技术突破,更是昇腾生态走向成熟的标志。未来方向:支持多模态输入、Speculative Decoding、Continuous Batching。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

2025-12-11 18:43:17 581

原创 《突破稠密计算瓶颈:基于 Ascend C 的稀疏矩阵乘(SpMM)高性能实现》

给定稀疏权重矩阵 W∈RM×K(稀疏),激活矩阵 X∈RK×N(稠密),输出 Y=W⋅X∈RM×N。values:非零元素值(FP16):对应列号(INT32)row_ptr:每行起始偏移(INT32)[3, 0, 4]]在昇腾 NPU 上,稀疏计算不仅是可行的,更是高效的。通过 Ascend C 手写 SpMM 算子,我们成功将大模型推理推向更高能效比的新阶段。支持结构化稀疏(如 2:4 Sparsity);与深度集成;探索训练时稀疏感知。

2025-12-11 18:38:54 739

原创 《Ascend C 高级优化实战:实现高性能卷积算子》

int batch;int kH, kW;通过 Im2Col + GEMM 架构,我们成功在 Ascend C 中实现了高性能卷积算子。虽然开发复杂度高,但掌握了这一模式后,可快速迁移到其他线性算子(如 Linear、BatchMatmul)。关键经验数据布局决定性能:尽量减少非连续访问Cube 是性能核心:确保 GEMM 分块对齐多核协同:合理划分任务避免负载不均Ascend C 是一把“双刃剑”——它赋予你极致性能,也要求你深入理解硬件。

2025-12-10 22:19:14 949

原创 《深入 Ascend C 编程模型:从零构建高性能算子》

我们将实现一个AddCustom算子,功能为C = A + B,但使用 Ascend C 优化内存访问与计算。Ascend C 为昇腾开发者提供了接近硬件的编程能力,虽学习曲线陡峭,但性能收益显著。未来,随着 CANN 和 MindSpore 的演进,Ascend C 将支持更多高级特性(如自动分块、AI 编译优化),降低开发门槛。建议从简单算子入手(Add、Relu)善用 Profiling 工具(msadvisor)关注华为官方文档与样例库。

2025-12-10 22:07:21 931

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除