自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(390)
  • 收藏
  • 关注

原创 深耕自主算力,解锁AI端到端实践|CANN启航营·浙江工业大学站圆满结束

授课团队课程兼顾大模型基础原理、轻量化微调前沿技术与昇腾算力工程落地实践,以 Qwen3 系列模型为实操载体讲解核心技术,同步指导学员完成训练调参、Loss 与超参监控、多组实验对比等标准化科研流程,并依托昇腾 NPU 硬件、CANN 一站式开发平台开展 Ascend C 开发与 CANNBot 智能体实践,让全体学员完整完成算子开发、NPU 编译加速、大模型微调三大工程案例,亲手实践自主算力软硬件协同开发全流程,直观感受昇腾生态赋能大模型落地的核心优势。

2026-07-03 09:19:05 165

原创 码力全开特辑直播预告|7月2日19:00,TorchTitan-NPU 支持 DeepSeek-V4-Flash 512K长序列续训练实践

本课程将介绍在DeepSeek-V4网络上如何基于TorchTitan-NPU框架攻克超长文本训练瓶颈、实现512K级别长序列的大规模续训练,怎样结合大EP+FSDP以及torch.compile+AutoFuse编译入图方案达成极致训练吞吐性能的实践经验,分享如何帮助昇腾大模型开发者在超长上下文场景下快速开展 CPT/SFT算法验证并实现开箱即优。

2026-07-01 16:50:01 190

原创 6月29日16点直播丨Ascend C 面向Tensor编程全新升级:Tensor API

2026-06-27 19:09:12 53

原创 码力全开特辑直播预告|6月29日19:00,面向DeepSeek-V4的低bit量化及整网推理部署实践分享

本课程将介绍在DeepSeek V4网络上如何实现网络精度无损的低bit量化,怎样结合昇腾软硬件特性达成网络极致部署性能的实践经验,分享如何在实际量化模型部署中平衡精度损失与推理加速。

2026-06-26 12:59:47 249

原创 6月26日晚上19​点直播丨Vector Function 高性能编程指南(二)

欢迎小伙伴们预约观看,参与互动答题赢CANN周边礼品,不容错过,我们直播间见~

2026-06-25 19:17:13 25

原创 6月26日16点直播丨CANNBot支持生成单指令多线程算子

2026-06-24 20:18:22 30

原创 码力全开特辑直播预告|6月25日19:00,解密Compressor算子:从算子设计到极致性能优化

DeepSeek V4引入全新的Compressor算子,实现模型推理的关键性能突破,本课程深入解析Compressor算子的设计理念、核心算法与实现细节,探讨在低时延场景下的优化策略。

2026-06-24 11:02:22 15

原创 6月25日直播丨Vector Function高性能编程指南(一)

2026-06-23 20:24:35 177

原创 ​6月24日直播丨基于昇腾的OSP-Next文生视频模型HiF8训推优化实践

2026-06-22 18:01:44 233

原创 6月23日直播丨​Mega Moe技术介绍

2026-06-21 20:14:22 46

原创 6月23日-6月29日,CANN NEXT系列直播等你参与~

2026-06-20 20:18:31 27

原创 码力全开特辑直播预告|6月22日19:00,告别无从下手:拆解开源Cube算子,快速掌握开发要领

以开源仓样例代码为依托,详解Cube类算子开发的设计逻辑、代码架构及关键代码功能,帮助开发者扫清入门障碍,高效上手Cube算子开发

2026-06-18 14:54:09 259

原创 6月18号直播丨CANNBot算子Harness工程建设

2026-06-17 17:53:10 36

原创 MCE SIG发布4款MD模拟流程核心算子,补齐分子动力学模拟主循环

欢迎化工、材料、能源领域的开发者下载代码、运行测试用例(详情见https://gitcode.com/cann/mat-chem-sim-pred/tree/master/simulation/AI4MD),并通过Issue或社区渠道反馈问题与改进建议。本算子实现了GAFF2的五项势能——键伸缩、键角弯曲、二面角扭转、Lennard-Jones 12-6、库仑静电,力约定与GROMACS一致。分子动力学模拟是化工、材料领域常用的计算手段,在催化剂设计、药物分子研究、电池材料、聚合物加工等方向均有应用。

2026-06-17 17:37:07 246

原创 【cann-samples系列】GroupedMatmul MX量化矩阵乘的深度性能优化实践

在处理不同规格输入时,划分的基本块无法均匀分配到所有核上,导致分核不均。需要针对最后一轮基本块进行二次切分(支持切分M和N轴),使其尽量均匀分配到多核中,充分发挥完整算力。Figure 6. 最后一个group尾轮负载均衡原理图:对最后一轮基本块进行二次切分(支持切分M和N轴)当前实验环境为Ascend950PR, GM带宽1.6T/s,32核。E=2,M轴分组,group_list={256,256},M=1024,K=2048,N=5120。

2026-06-16 19:48:45 558

原创 ​6月16日晚上19:00直播丨Ascend C开源资料及样例分享

CANN开源社区讨论板块已发布有奖问答活动,欢迎大家预约直播,参与社区互动~~ https://gitcode.com/cann/asc-devkit/discussions/4。

2026-06-15 18:48:02 31

原创 昇腾体验信箱-资料“捉虫”专项活动(第一期)

昇腾体验信箱——资料“捉虫”活动启动了!

2026-06-15 11:30:41 195

原创 6月15号新课开讲|HCCL入门系列课,正式上线!

📚 HCCL入门系列课程一览第一课:HCCL通信库软件架构介绍 - 6月15号16:00第二课:HCCL通信库算子开发介绍 - 6月16号16:00第三课:HCCL北极星平台使用介绍 - 6月17号16:00三期课程将陆续更新~📖前置学习推荐入门开发者建议优先学习【技术文章】中的《HCCL—昇腾高性能集合通信库简介》《深度学习的分布式训练与集合通信(一)》《深度学习的分布式训练与集合通信(二)》💬互动社区&有奖问答。

2026-06-13 20:13:15 210

原创 码力全开特辑直播预告|6月15日19:00,AscendNPU IR CV算子编译优化解析

【昇腾CANN】视频号、B站、昇腾社区多平台直播,扫码观看直播,参与直播答题互动赢定制T恤、毛毯!

2026-06-12 18:05:50 251

原创 6月12号直播丨CANNBot算子测试全流程

2026-06-11 17:44:50 169

原创 企业对话专场直播预告|6月11日19:00,Triton-TLE面向昇腾的扩展与优化

面向昇腾AI处理器,聚焦高性能算子开发:基于 AscendNPU IR 进行编译接入与联创,融合编译器优化手段,并依托 FlagOS 社区 拓展 FlagTree TLE 原语,以最大化挖掘昇腾硬件潜力与编译能力,从而编写出高性能算子

2026-06-10 10:15:47 188

原创 6月9日直播丨​cann-samples:算子性能优化经验分享

2026-06-08 17:36:30 30

原创 6月8日直播丨Regbase进阶编程 & 调优工具FlashVF实操演练

2026-06-07 20:10:31 38

原创 从一张查找表到 4GB/s:HiFloat8 Cast 算子的工程化之路

HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该硬件加速的 A2/A3 平台。

2026-06-05 17:19:23 410

原创 码力全开特辑直播预告|6月8日19:00,ATVOSS :算子全流程实践

深入了解ATVOSS!完成算子端到端全流程实践(Torch),实现Vector算子性能调优

2026-06-05 14:27:04 33

原创 码力全开特辑直播预告|6月4日19:00,ATVOSS:极简开发概述

ATVOSS (Ascend C Templates forVector Operator Subroutines ) 是基于Ascend C开发的Vector算子模板库,致力于为昇腾硬件的Vector类融合算子,提供极简、高效、高性能、可拓展的编程方案。本课程带你从玩转ATVOSS,从架构入门到API详解,手把手教你用极简API开发高性能Vector算子。

2026-06-03 10:16:28 192

原创 智算未来,开源同行:复旦大学CANN启航营&校园赛圆满举办

开营仪式上,复旦大学计算与智能创新学院副教授、开源社团指导老师陈碧欢,CANN 开源社区技术指导委员会(TSC)委员田军、昇腾产品管理总监王晓雷、业务招聘经理王磊及CANN高校生态经理武嘉伟等多位华为专家出席活动。

2026-06-02 17:03:30 224

原创 码力全开特辑直播预告|6月1日19:00,Triton昇腾亲和扩展编程实践

点击下方链接,参与互动赢取惊喜定制礼。【昇腾CANN】视频号、B站。关注【昇腾CANN】视频号。

2026-05-29 14:45:41 34

原创 Scalar如何影响昇腾NPU算子性能:原理与优化实践

Scalar单元是昇腾NPU AI Core中的标量运算流水线,负责指令分发与地址计算。当Scalar成为性能瓶颈(即ScalarBound)时,会阻塞Cube/Vector/MTE等其他流水线,导致算子性能大幅下降。本文基于Ascend 950上的实测用例的统计分析,发现Cube类和Mix类算子中ScalarBound问题最为突出(占比超过97%)。根因分析表明,Load/Store指令过多(占比普遍超过30%)是ScalarBound的主因,其根源在于编译器的寄存器spill。

2026-05-28 20:32:55 339

原创 5月29日直播 | HIXL协同Mooncake实现KV Cache池化技术实践分享

B站预约链接:点击跳转预约

2026-05-28 17:59:33 28

原创 开发者说直播预告|5月28日19:00,optimized_transducer算子任务开发与性能调优

B站观看链接:https://live.bilibili.com/h5/23。昇腾社区观看链接:2026昇腾CANN训练营-昇腾社区。点击下方链接,参与互动赢取惊喜定制礼。【昇腾CANN】视频号、B站。关注【昇腾CANN】视频号。

2026-05-27 18:05:56 34

原创 【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践

本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过 profiling 指标判断 Memory Bound、Compute Bound 与流水停顿。

2026-05-26 21:40:47 452

原创 【cann-samples系列】MX量化矩阵乘的性能优化实践

cann-samples是CANN社区提供的高性能实操样例库,致力于为开发者提供可复用的优化方法论和最佳实践代码。本系列文章将陆续介绍仓库中的典型样例,分享我们在算子优化过程中的思考与经验。

2026-05-26 21:29:07 406

原创 TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能!

在电商行业中,推荐模型可以将合适的商品在合适的时间推送给最可能对其感兴趣的人群,从而大幅提升用户体验和平台转化率。某电商平台便使用了多个基于TensorFlow框架的传统推荐模型,这些模型存在大量的Add、ReLU、LayerNorm等轻量级算子,执行频繁,不仅调度开销高,还会频繁搬运算子的输入输出,极大降低了模型的执行效率。采用融合算子的方式可以有效优化以上瓶颈,将这些小算子融合成一个大算子,既减少了调度次数从而降低调度开销,同时可以在新的融合算子中合理复用内存,内存搬运的耗时也会大幅降低。

2026-05-26 21:02:07 513

原创 CANN-Bench设计解读-如何构建一个Agent-Native的算子评测体系

AI大模型和Harness 工程快速发展的今天,模型+Agent的组合使得复杂系统级代码开发任务门槛进一步降低,昇腾CANN作为算力基础设施的一部分,也迎来了从古法编程到AI编程的关键转折,CANN领域中的算子开发效率出现了数量级的提升,但选择什么样的模型,使用哪个Agent能够产出高质量的算子,成了开发经常遇到的问题。数据层是整个评测体系的基础,CANN-Bench通过“算子定义+测试用例+真值脚本+工程样例”的标准化组合,保障评测的公平性与可复现性,同时为开源社区贡献者制定统一的评测任务定义范式。

2026-05-25 09:20:19 419

原创 码力全开特辑直播预告|5月25日19:00,Triton Ascend代码架构及功能扩展全解析

【码力全开特辑】观看直播参与直播答题互动赢定制T恤、毛毯!B站观看链接:https://live.bilibili.com/h5/23。昇腾社区观看链接:2026昇腾CANN训练营-昇腾社区。点击下方链接,参与互动赢取惊喜定制礼。【昇腾CANN】视频号、B站。关注【昇腾CANN】视频号。

2026-05-22 17:16:59 34

原创 码力全开特辑直播预告|5月21日19:00,详解面向昇腾的Triton算子调试和性能优化

介绍Triton算子调试方技术法与性能检测工具,讲解高性能算子设计逻辑与具体实现流程

2026-05-20 11:20:05 40

原创 5月21日直播丨CANN社区开发者成长路径介绍及算子天梯赛发布

2026-05-20 10:09:52 24

原创 第九届信息技术新工科产学研联盟年会召开CANN开源社区分享高校人才生态建设

吕卫锋教授在致辞中表示,2025年,联盟举办新工科论坛、专家进高校、师资培训等活动超70场;同时,由联盟教师培训工委、ICT人才发展工委联合编制的《新工科教师培训流程标准》在大会上发布,该项标准突出“培训模式实战化、培训流程标准化、培训资源数字化”,进一步规范师资赋能体系,全方位推动新工科教育改革走深走实。他表示,CANN始终坚持开源开放,依托CANN开源社区,围绕“学、练、赛、证、聘”构建了完整的人才培养体系,助力高校教师将相关技术更好地融入课程教学与实践环节,系统性提升学生的工程实践能力。

2026-05-19 11:51:27 377

原创 芯聚力量,智创未来:南京信息工程大学CANN启航营圆满收官,为AI注入青春力量

活动进一步明确了学生在NPU编程、异构计算等方向的学习重点,引导青年学子主动对接国家重大战略需求,树立科技报国理想,科学规划学业与职业发展方向,扎实锤炼专业本领,为今后投身算力、人工智能等核心技术领域,服务国家高水平科技自立自强建设筑牢坚实基础。为深入推进新工科建设,深化产教融合与校企协同育人,助力计算机与软件类专业学子夯实底层技术基础、拓宽前沿学术视野,全面提升工程实践能力与就业核心竞争力,5月10日和5月16日,计算机学院、软件学。院联合CANN开源社区。

2026-05-18 18:26:47 40

面向Ascend 950, 加速开发、释放生产力的必备利器

面向Ascend 950, 加速开发、释放生产力的必备利器

2026-03-26

Ascend 950 场景驱动下的算子编程语言选型

内容概要:本文围绕下一代硬件架构下的AI算子编程语言选型问题,系统分析了不同编程语言与API层级如何满足高易用性、高性能及跨平台兼容等多维开发诉求。文章重点介绍了Ascend C、PyPTO、Triton-Ascend和TileLang等多种编程语言及其在SIMT/SIMD矢量计算、低比特矩阵乘、融合算子创新等典型场景中的技术实现路径,展示了各语言在不同抽象层级上的能力支撑,如Ascend C的多级API体系、PyPTO的自动优化与VF融合、Triton的编译器自动使能硬件特性以及TileLang的软硬件协同设计。同时,针对算法验证、性能调优和异构部署等实际场景,提出了具体的语言选型建议。; 适合人群:具备AI算子开发经验的研发人员,尤其是从事高性能计算、深度学习框架优化、异构编程的语言与编译器开发者,以及关注昇腾生态的技术工程师。; 使用场景及目标:①在算法快速验证阶段,选用PyPTO或Triton-Ascend提升开发效率;②在追求极致性能的部署阶段,采用Ascend C底层API或TileLang专家模式精细控制硬件资源;③在跨平台迁移与兼容性需求下,利用PyPTO、Triton或TileLang的抽象能力实现NPU/GPU间的可移植性; 阅读建议:本文技术深度较高,建议结合昇腾CANN社区资源与实际开发环境同步实践,重点关注各语言在具体硬件特性(如SIMT、MXFP8、CV直连通路)上的映射机制,并通过案例理解从算法表达到硬件执行的全流程优化逻辑。

2026-03-26

面向Ascend 950,CANN技术架构的变与不变

面向新一代硬件,CANN技术架构的变与不变

2026-03-26

探索Ascend 950的性能天花板

探索Ascend 950的性能天花板

2026-03-26

CANN 算子开发全链路体验升级

内容概要:本文介绍了CANN(Compute Architecture for Neural Networks)在算子开发全链路中的三大核心体验升级:算子编程易用性提升、运行时调度接口优化以及调优Profiling能力增强。重点包括新增NDDMA多维非连续数据搬运能力,支持转置、广播、Padding等复杂场景的高效实现;引入CV直连通路(UB2L1/L0C2UB)以提升融合算子性能;完善算子代际兼容策略,确保从910系列到950芯片的平滑迁移;优化KernelLaunch接口,降低核间同步开销并支持超时控制与批量调度;新增Count Notify机制简化1对N同步编程;在调优方面,大幅提升Profiling采集频率至10kHz,支持CCU性能监控、Pipe流水图可视化、PC采样定位阻塞指令及SIMT寄存器细粒度分析,全面提升算子开发调试效率与性能优化能力。; 适合人群:从事AI芯片底层开发、高性能算子开发的技术人员,具备一定Ascend C/C++编程经验及硬件架构理解能力的研发工程师;适用于深度参与CANN生态开发、模型迁移与性能调优的专业开发者。; 使用场景及目标:①利用NDDMA和CV直连通路开发高效融合算子,提升数据搬运与计算性能;②通过运行时接口优化实现低延迟、高可靠的任务调度与同步;③借助增强的Profiling工具链进行端到端性能瓶颈分析与定位,支撑高性能AI算子的设计与调优;④完成旧版算子向Ascend 950等新型硬件的兼容迁移。; 阅读建议:建议结合GitCode上的完整样例代码实践学习,重点关注NDDMA参数配置、Fixpipe接口使用、Count Notify编程模型以及Profiling工具的实际应用,配合硬件架构文档深入理解各项优化特性的底层原理。

2026-03-26

面向下一代硬件的性能调优

Profiling是开发者进行NPU性能调优的重要工具,本次课程向开发者介绍下一代芯片面向整网和算子性能调优提供的新特性。

2026-03-12

PyPTO 模型融合算子实操

作为PyPTO系列的最后一讲,本次分享聚焦大模型的融合算子的开发全流程;从算子设计,到算子开发,再到性能优化,展现PyPTO的实操风采。

2026-03-12

PyPTO IDE调优工具实操

PyPTO Toolkit是一款PyPTO框架全流程辅助工具,提供包括编译、运行时状态的可视化、算子开发作业流的作业能力,使能开发者快速建立对PyPTO框架的理解,提升算子开发和调试调优效率。

2026-03-12

PyPTO:Tensor 的算子编程范式

PyPTO是一种兼顾开发效率与运行性能的编程框架,它既简化了算子和模型的开发流程,又通过编译优化保证了高性能。其核心机制是将高层次的Tensor计算图,自动转化为可并行的Tile计算,从而生成高效的可执行代码。

2026-03-12

PyPTO:Hello, World!

作为 PyPTO 系列分享的第一讲,本次分享将为开发者介绍PyPTO的基本概念与环境安装,让开发者能够写出 PyPTO的Hello, World.

2026-03-12

Ascend C算子编译与调试调优能力概述

主要介绍 AscendC算子编译方式以及配套的调试调优能力,助力算子开发者快速上手,帮助开发者快速定位算子问题,实现高性能的算子,提升CANN算子开发效率。

2026-03-12

基于下一代硬件的Ascend C Reg矢量编程

基于下一代硬件的Ascend C Reg矢量编程

2026-03-04

基于下一代Ascend平台的Ascend C算子编程概述

基于下一代Ascend平台的Ascend C算子编程概述

2026-03-03

基于下一代硬件的Ascend C SIMD与SIMT混合编程

基于下一代硬件的Ascend C SIMD与SIMT混合编程

2026-03-04

基于下一代Ascend平台的SIMT编程介绍

基于下一代Ascend平台的SIMT编程介绍

2026-03-03

ScaleBox面向昇腾环境的高效代码强化学习沙盒环境实践

内容概要:本文介绍了ScaleBox——一个面向昇腾(Ascend)环境的高效代码强化学习沙盒环境,旨在解决大模型在代码强化学习(Code RL)中面临的验证效率低、评估不一致及平台适配难等问题。ScaleBox通过构建可扩展的分布式代码执行沙盒,支持多机部署、负载均衡、单元测试并行与实例级并行,显著提升了验证吞吐能力。它兼容主流强化学习框架(如verl),并深度适配昇腾平台的CANN生态,提供统一的训练接口和一键式多基准评估(如HumanEval、LiveCodeBench)。文章还展示了基于DeepSeek-R1和Qwen3系列模型在昇腾环境下的Code RL训练实践,验证了其在长上下文、大规模任务中的高效性与稳定性。; 适合人群:具备一定深度学习与大模型训练背景,从事AI工程化、模型后训练优化或Code RL研究的研发人员,尤其适用于在国产化算力平台(如昇腾)上开展工作的技术人员。; 使用场景及目标:① 构建高并发、低延迟的代码验证系统以支持大规模强化学习训练;② 在昇腾平台上实现端到端的Code RL训练流程,提升训练效率与评估一致性;③ 推动大模型在代码生成、自修复、测试预测等场景中的实际落地应用; 阅读建议:此资源强调系统设计与工程实践的结合,建议读者结合开源项目(cann-recipes-train 和 ScaleBox)中的代码样例、Docker镜像与部署脚本进行实操,重点关注数据构建、奖励函数定义与分布式沙盒集成等关键环节,并积极参与社区共建以推动生态发展。

2026-02-24

CANN一站式开发平台全面公测

CANN一站式开发平台全面公测

2026-02-24

轻量化图模式后端npugraph-ex

轻量化图模式后端npugraph-ex

2026-02-24

CANN ops-samples仓开源介绍

CANN ops-samples仓开源介绍

2026-02-24

TileLang-AscendDeveloper模式

TileLang-AscendDeveloper模式

2026-02-24

能源化工行业基于昇腾生态的科研算子适配与应用

能源化工行业基于昇腾生态的科研算子适配与应用

2026-04-23

面向Ascend950的8bit量化矩阵乘性能建模与优化方法论

面向Ascend950的8bit量化矩阵乘性能建模与优化方法论

2026-04-23

面向Ascend 950的AscendC SIMD&SIMT编程实践

面向Ascend 950的AscendC SIMD&SIMT编程实践

2026-04-23

具身智能VLA模型在昇腾平台的适配优化关键技术实践

具身智能VLA模型在昇腾平台的适配优化关键技术实践

2026-04-23

NPU模型优化Agent Skill:端到端优化闭环实践

NPU模型优化Agent Skill:端到端优化闭环实践

2026-04-23

HCCL 北极星工具助力 Ascend950 集合通信高效开发

HCCL 北极星工具助力 Ascend950 集合通信高效开发

2026-04-23

Ascend 950 HiF8模型量化技术的训推实践

Ascend 950 HiF8模型量化技术的训推实践

2026-04-23

AI赋能化工工艺流程模拟与优化

AI赋能化工工艺流程模拟与优化

2026-04-23

TileLang典型算子性能优化

TileLang典型算子性能优化

2026-04-23

CANNBot 开发进阶:TileLang-Ascend 算子开发实操

CANNBot 开发进阶:TileLang-Ascend 算子开发实操

2026-04-23

CANNBot开发进阶:PyPTO 算子开发实操

CANNBot开发进阶:PyPTO 算子开发实操

2026-04-23

CANNBot开发进阶:Ascend C算子开发实操

CANNBot开发进阶:Ascend C算子开发实操

2026-04-23

CANNBot入门:从0到1生成你的第一个算子

CANNBot入门:从0到1生成你的第一个算子

2026-04-23

CANNBot发布:畅享算子开发新旅程

CANNBot发布:畅享算子开发新旅程

2026-04-23

Ascend HiFloat8 Al训练和推理

Ascend HiFloat8 Al训练和推理

2026-04-09

HiFloat4 Format for Language Model Inference

HiFloat4 Format for Language Model Inference

2026-04-09

基于Ascend 950的CUBE编程技术

内容概要:本文系统介绍了基于下一代昇腾AI处理器硬件架构的Cube编程技术,重点围绕CUBE计算单元的微架构升级,详细解析了存储能力增强、数据通路重构、新型指令支持、低比特数据类型(如FP4、FP8)、新增专用存储单元(SSBuffer)及核间同步机制等关键技术变革。文章对比了当代与下一代CUBE编程差异,深入讲解了DN/NZ数据格式转换、MXFP量化矩阵乘、DualDst双目标输出模式、CV融合流水优化等核心特性,并配套呈现基础API与高阶Tensor API的编程方法及实操案例,如MatmulV3与FlashAttentionGrad(FAG)算子开发,帮助开发者掌握面向新硬件的算子设计与性能调优能力。; 适合人群:具备Ascend C编程基础、熟悉当代CUBE算子开发流程,且有昇腾芯片架构认知的研发人员,尤其是从事高性能算子开发与AI模型加速的工程师; 使用场景及目标:①理解下一代CUBE硬件升级对算子编程的影响,掌握新型API的使用方式;②开发支持FP4/FP8低比特计算的高效矩阵算子;③实现CV融合算子的流水并行与性能优化,提升端到端计算效率; 阅读建议:此资源以架构演进驱动编程范式升级为主线,建议结合提供的代码示例与开源样例仓实践,重点关注数据搬运路径、LoadData与Fixpipe新参数配置、核间同步模式切换等关键环节,并通过调试不同tiling策略验证性能增益。

2026-03-30

PTO ISA教你如何快速上手昇腾950

内容概要:本文介绍了PTO ISA(Parallel Tile Operation Instruction Set Architecture)——昇腾芯片的虚拟指令集,重点讲解其在昇腾950芯片上的应用与编程方法。文档详细阐述了PTO如何通过层次化多粒度指令集(块指令与微指令结合)实现对达芬奇架构硬件能力的抽象与透传,在保证高性能的同时达成跨平台兼容性。内容涵盖PTO抽象机的工作机制、标量/向量/块指令的编程模型、内存层级与数据流动原理,并通过手写矩阵乘和Flash Attention等典型算子示例,展示如何高效进行底层优化。此外,文档还展示了PTO与AI Agent结合可自动生成接近专家手写水平的高性能算子代码,显著提升开发效率。; 适合人群:具备一定AI框架和硬件基础知识的算法工程师、系统程序员及高性能计算研发人员,尤其是从事昇腾平台算子开发、模型优化或AI编译器研究的技术人员。; 使用场景及目标:①掌握昇腾950芯片底层编程原理,理解Roofline模型与局部性优化策略;②学习如何使用PTO编写高性能定制算子,如矩阵乘、FlashAttention等;③探索基于PTO+Agent的自动化算子生成路径,提升开发效率;④为构建跨平台、高兼容性的AI算力生态提供技术支持。; 阅读建议:此资料强调理论与实践结合,建议读者配合PTO开源项目(GitCode/GitHub)动手实验,深入理解指令调度、内存布局与并行优化机制,并关注社区更新以获取最新工具链与案例支持。

2026-03-26

HCCL集合通信专用引擎CCU技术介绍

HCCL集合通信专用引擎CCU技术介绍

2026-03-26

CANN HiF8格式和技术直播

CANN HiF8格式和技术直播

2026-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除