- 博客(390)
- 收藏
- 关注
原创 深耕自主算力,解锁AI端到端实践|CANN启航营·浙江工业大学站圆满结束
授课团队课程兼顾大模型基础原理、轻量化微调前沿技术与昇腾算力工程落地实践,以 Qwen3 系列模型为实操载体讲解核心技术,同步指导学员完成训练调参、Loss 与超参监控、多组实验对比等标准化科研流程,并依托昇腾 NPU 硬件、CANN 一站式开发平台开展 Ascend C 开发与 CANNBot 智能体实践,让全体学员完整完成算子开发、NPU 编译加速、大模型微调三大工程案例,亲手实践自主算力软硬件协同开发全流程,直观感受昇腾生态赋能大模型落地的核心优势。
2026-07-03 09:19:05
165
原创 码力全开特辑直播预告|7月2日19:00,TorchTitan-NPU 支持 DeepSeek-V4-Flash 512K长序列续训练实践
本课程将介绍在DeepSeek-V4网络上如何基于TorchTitan-NPU框架攻克超长文本训练瓶颈、实现512K级别长序列的大规模续训练,怎样结合大EP+FSDP以及torch.compile+AutoFuse编译入图方案达成极致训练吞吐性能的实践经验,分享如何帮助昇腾大模型开发者在超长上下文场景下快速开展 CPT/SFT算法验证并实现开箱即优。
2026-07-01 16:50:01
190
原创 码力全开特辑直播预告|6月29日19:00,面向DeepSeek-V4的低bit量化及整网推理部署实践分享
本课程将介绍在DeepSeek V4网络上如何实现网络精度无损的低bit量化,怎样结合昇腾软硬件特性达成网络极致部署性能的实践经验,分享如何在实际量化模型部署中平衡精度损失与推理加速。
2026-06-26 12:59:47
249
原创 6月26日晚上19点直播丨Vector Function 高性能编程指南(二)
欢迎小伙伴们预约观看,参与互动答题赢CANN周边礼品,不容错过,我们直播间见~
2026-06-25 19:17:13
25
原创 码力全开特辑直播预告|6月25日19:00,解密Compressor算子:从算子设计到极致性能优化
DeepSeek V4引入全新的Compressor算子,实现模型推理的关键性能突破,本课程深入解析Compressor算子的设计理念、核心算法与实现细节,探讨在低时延场景下的优化策略。
2026-06-24 11:02:22
15
原创 码力全开特辑直播预告|6月22日19:00,告别无从下手:拆解开源Cube算子,快速掌握开发要领
以开源仓样例代码为依托,详解Cube类算子开发的设计逻辑、代码架构及关键代码功能,帮助开发者扫清入门障碍,高效上手Cube算子开发
2026-06-18 14:54:09
259
原创 MCE SIG发布4款MD模拟流程核心算子,补齐分子动力学模拟主循环
欢迎化工、材料、能源领域的开发者下载代码、运行测试用例(详情见https://gitcode.com/cann/mat-chem-sim-pred/tree/master/simulation/AI4MD),并通过Issue或社区渠道反馈问题与改进建议。本算子实现了GAFF2的五项势能——键伸缩、键角弯曲、二面角扭转、Lennard-Jones 12-6、库仑静电,力约定与GROMACS一致。分子动力学模拟是化工、材料领域常用的计算手段,在催化剂设计、药物分子研究、电池材料、聚合物加工等方向均有应用。
2026-06-17 17:37:07
246
原创 【cann-samples系列】GroupedMatmul MX量化矩阵乘的深度性能优化实践
在处理不同规格输入时,划分的基本块无法均匀分配到所有核上,导致分核不均。需要针对最后一轮基本块进行二次切分(支持切分M和N轴),使其尽量均匀分配到多核中,充分发挥完整算力。Figure 6. 最后一个group尾轮负载均衡原理图:对最后一轮基本块进行二次切分(支持切分M和N轴)当前实验环境为Ascend950PR, GM带宽1.6T/s,32核。E=2,M轴分组,group_list={256,256},M=1024,K=2048,N=5120。
2026-06-16 19:48:45
558
原创 6月16日晚上19:00直播丨Ascend C开源资料及样例分享
CANN开源社区讨论板块已发布有奖问答活动,欢迎大家预约直播,参与社区互动~~ https://gitcode.com/cann/asc-devkit/discussions/4。
2026-06-15 18:48:02
31
原创 6月15号新课开讲|HCCL入门系列课,正式上线!
📚 HCCL入门系列课程一览第一课:HCCL通信库软件架构介绍 - 6月15号16:00第二课:HCCL通信库算子开发介绍 - 6月16号16:00第三课:HCCL北极星平台使用介绍 - 6月17号16:00三期课程将陆续更新~📖前置学习推荐入门开发者建议优先学习【技术文章】中的《HCCL—昇腾高性能集合通信库简介》《深度学习的分布式训练与集合通信(一)》《深度学习的分布式训练与集合通信(二)》💬互动社区&有奖问答。
2026-06-13 20:13:15
210
原创 码力全开特辑直播预告|6月15日19:00,AscendNPU IR CV算子编译优化解析
【昇腾CANN】视频号、B站、昇腾社区多平台直播,扫码观看直播,参与直播答题互动赢定制T恤、毛毯!
2026-06-12 18:05:50
251
原创 企业对话专场直播预告|6月11日19:00,Triton-TLE面向昇腾的扩展与优化
面向昇腾AI处理器,聚焦高性能算子开发:基于 AscendNPU IR 进行编译接入与联创,融合编译器优化手段,并依托 FlagOS 社区 拓展 FlagTree TLE 原语,以最大化挖掘昇腾硬件潜力与编译能力,从而编写出高性能算子
2026-06-10 10:15:47
188
原创 从一张查找表到 4GB/s:HiFloat8 Cast 算子的工程化之路
HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该硬件加速的 A2/A3 平台。
2026-06-05 17:19:23
410
原创 码力全开特辑直播预告|6月8日19:00,ATVOSS :算子全流程实践
深入了解ATVOSS!完成算子端到端全流程实践(Torch),实现Vector算子性能调优
2026-06-05 14:27:04
33
原创 码力全开特辑直播预告|6月4日19:00,ATVOSS:极简开发概述
ATVOSS (Ascend C Templates forVector Operator Subroutines ) 是基于Ascend C开发的Vector算子模板库,致力于为昇腾硬件的Vector类融合算子,提供极简、高效、高性能、可拓展的编程方案。本课程带你从玩转ATVOSS,从架构入门到API详解,手把手教你用极简API开发高性能Vector算子。
2026-06-03 10:16:28
192
原创 智算未来,开源同行:复旦大学CANN启航营&校园赛圆满举办
开营仪式上,复旦大学计算与智能创新学院副教授、开源社团指导老师陈碧欢,CANN 开源社区技术指导委员会(TSC)委员田军、昇腾产品管理总监王晓雷、业务招聘经理王磊及CANN高校生态经理武嘉伟等多位华为专家出席活动。
2026-06-02 17:03:30
224
原创 码力全开特辑直播预告|6月1日19:00,Triton昇腾亲和扩展编程实践
点击下方链接,参与互动赢取惊喜定制礼。【昇腾CANN】视频号、B站。关注【昇腾CANN】视频号。
2026-05-29 14:45:41
34
原创 Scalar如何影响昇腾NPU算子性能:原理与优化实践
Scalar单元是昇腾NPU AI Core中的标量运算流水线,负责指令分发与地址计算。当Scalar成为性能瓶颈(即ScalarBound)时,会阻塞Cube/Vector/MTE等其他流水线,导致算子性能大幅下降。本文基于Ascend 950上的实测用例的统计分析,发现Cube类和Mix类算子中ScalarBound问题最为突出(占比超过97%)。根因分析表明,Load/Store指令过多(占比普遍超过30%)是ScalarBound的主因,其根源在于编译器的寄存器spill。
2026-05-28 20:32:55
339
原创 开发者说直播预告|5月28日19:00,optimized_transducer算子任务开发与性能调优
B站观看链接:https://live.bilibili.com/h5/23。昇腾社区观看链接:2026昇腾CANN训练营-昇腾社区。点击下方链接,参与互动赢取惊喜定制礼。【昇腾CANN】视频号、B站。关注【昇腾CANN】视频号。
2026-05-27 18:05:56
34
原创 【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践
本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过 profiling 指标判断 Memory Bound、Compute Bound 与流水停顿。
2026-05-26 21:40:47
452
原创 【cann-samples系列】MX量化矩阵乘的性能优化实践
cann-samples是CANN社区提供的高性能实操样例库,致力于为开发者提供可复用的优化方法论和最佳实践代码。本系列文章将陆续介绍仓库中的典型样例,分享我们在算子优化过程中的思考与经验。
2026-05-26 21:29:07
406
原创 TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能!
在电商行业中,推荐模型可以将合适的商品在合适的时间推送给最可能对其感兴趣的人群,从而大幅提升用户体验和平台转化率。某电商平台便使用了多个基于TensorFlow框架的传统推荐模型,这些模型存在大量的Add、ReLU、LayerNorm等轻量级算子,执行频繁,不仅调度开销高,还会频繁搬运算子的输入输出,极大降低了模型的执行效率。采用融合算子的方式可以有效优化以上瓶颈,将这些小算子融合成一个大算子,既减少了调度次数从而降低调度开销,同时可以在新的融合算子中合理复用内存,内存搬运的耗时也会大幅降低。
2026-05-26 21:02:07
513
原创 CANN-Bench设计解读-如何构建一个Agent-Native的算子评测体系
AI大模型和Harness 工程快速发展的今天,模型+Agent的组合使得复杂系统级代码开发任务门槛进一步降低,昇腾CANN作为算力基础设施的一部分,也迎来了从古法编程到AI编程的关键转折,CANN领域中的算子开发效率出现了数量级的提升,但选择什么样的模型,使用哪个Agent能够产出高质量的算子,成了开发经常遇到的问题。数据层是整个评测体系的基础,CANN-Bench通过“算子定义+测试用例+真值脚本+工程样例”的标准化组合,保障评测的公平性与可复现性,同时为开源社区贡献者制定统一的评测任务定义范式。
2026-05-25 09:20:19
419
原创 码力全开特辑直播预告|5月25日19:00,Triton Ascend代码架构及功能扩展全解析
【码力全开特辑】观看直播参与直播答题互动赢定制T恤、毛毯!B站观看链接:https://live.bilibili.com/h5/23。昇腾社区观看链接:2026昇腾CANN训练营-昇腾社区。点击下方链接,参与互动赢取惊喜定制礼。【昇腾CANN】视频号、B站。关注【昇腾CANN】视频号。
2026-05-22 17:16:59
34
原创 码力全开特辑直播预告|5月21日19:00,详解面向昇腾的Triton算子调试和性能优化
介绍Triton算子调试方技术法与性能检测工具,讲解高性能算子设计逻辑与具体实现流程
2026-05-20 11:20:05
40
原创 第九届信息技术新工科产学研联盟年会召开CANN开源社区分享高校人才生态建设
吕卫锋教授在致辞中表示,2025年,联盟举办新工科论坛、专家进高校、师资培训等活动超70场;同时,由联盟教师培训工委、ICT人才发展工委联合编制的《新工科教师培训流程标准》在大会上发布,该项标准突出“培训模式实战化、培训流程标准化、培训资源数字化”,进一步规范师资赋能体系,全方位推动新工科教育改革走深走实。他表示,CANN始终坚持开源开放,依托CANN开源社区,围绕“学、练、赛、证、聘”构建了完整的人才培养体系,助力高校教师将相关技术更好地融入课程教学与实践环节,系统性提升学生的工程实践能力。
2026-05-19 11:51:27
377
原创 芯聚力量,智创未来:南京信息工程大学CANN启航营圆满收官,为AI注入青春力量
活动进一步明确了学生在NPU编程、异构计算等方向的学习重点,引导青年学子主动对接国家重大战略需求,树立科技报国理想,科学规划学业与职业发展方向,扎实锤炼专业本领,为今后投身算力、人工智能等核心技术领域,服务国家高水平科技自立自强建设筑牢坚实基础。为深入推进新工科建设,深化产教融合与校企协同育人,助力计算机与软件类专业学子夯实底层技术基础、拓宽前沿学术视野,全面提升工程实践能力与就业核心竞争力,5月10日和5月16日,计算机学院、软件学。院联合CANN开源社区。
2026-05-18 18:26:47
40
Ascend 950 场景驱动下的算子编程语言选型
2026-03-26
CANN 算子开发全链路体验升级
2026-03-26
PyPTO IDE调优工具实操
2026-03-12
PyPTO:Tensor 的算子编程范式
2026-03-12
PyPTO:Hello, World!
2026-03-12
Ascend C算子编译与调试调优能力概述
2026-03-12
ScaleBox面向昇腾环境的高效代码强化学习沙盒环境实践
2026-02-24
HiFloat4 Format for Language Model Inference
2026-04-09
基于Ascend 950的CUBE编程技术
2026-03-30
PTO ISA教你如何快速上手昇腾950
2026-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅