- 博客(5)
- 收藏
- 关注
原创 《从零构建 CNN 算子:基于 Ascend C 的高性能卷积与池化实现详解》
通过本文,我们掌握了在 Ascend C 中实现 CNN 核心算子的方法。理解数据布局合理分块(Tile Size 匹配 UB 容量)流水线设计(计算与搬运重叠)算子融合(减少 Global 访存)随着国产 AI 芯片生态的成熟,掌握 Ascend C 将成为 AI 工程师的核心竞争力之一。附录:完整代码仓库GitHub:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-13 21:32:07
631
原创 昇腾 Ascend 910B + MindSpore 实战:千亿参数大模型分布式训练全链路优化指南
昇腾 910B + MindSpore 已具备支撑千亿级大模型训练的全栈能力。通过合理的 3D 并行策略、ZeRO 优化、通信压缩与流水线调度,可实现高吞吐、低能耗、高稳定性的训练任务。未来,随着 MindSpore 对 MoE、Long Context、RLHF 的原生支持,昇腾生态将在大模型时代占据重要地位。附:开源项目GitHub:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。
2025-12-12 22:27:30
1464
原创 昇腾 Ascend 310P 边缘推理实战:基于 MindSpore Lite 的轻量化部署与性能分析
昇腾 Ascend 310P 为边缘 AI 提供了高性价比的解决方案。结合 MindSpore Lite 的量化、压缩与高效推理能力,开发者可快速将复杂模型部署到资源受限设备。未来,随着 MindSpore 生态的完善,昇腾将在智能制造、智慧交通等领域发挥更大价值。项目地址Gitee:以上两篇文章分别覆盖了昇腾在云端训练(910B)与边缘推理(310P)的典型应用场景,内容详实、代码可运行、结构清晰,符合 CSDN 高质量技术文章标准。
2025-12-12 22:22:33
1499
原创 《深入Ascend C:揭秘高性能卷积算子(Conv2D)的实现原理》
实现一个高性能的Conv2D算子是检验Ascend C掌握程度的试金石。本文深入剖析了Im2Col和Winograd两种核心算法,并展示了如何利用Ascend C的特性——特别是分块、向量化和Cube指令——来克服内存墙和计算瓶颈。真正的高手不仅知道“怎么做”,更懂得“为什么这么做”。希望本文能激发你对底层性能优化的兴趣,并在你的昇腾AI项目中大放异彩。记住,性能优化永无止境,每一次对细节的打磨,都是对算力极限的又一次挑战。
2025-12-11 22:07:26
1105
原创 《Ascend C 编程入门与实战:从零构建你的第一个算子》
Ascend C 算子的核心逻辑写在一个特殊的内核函数中。该函数必须遵循特定的签名,并使用Ascend C提供的API。
2025-12-11 22:01:15
655
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅