自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(171)
  • 收藏
  • 关注

原创 HCCL ReduceScatter优化开发

Reduce:所有节点先对相同位置的数据执行归约操作。Scatter:将规约后的完整结果拆分,每个节点只获取拆分后的一部分结果。如下图所示,每个节点对相同颜色(即相同位置)的数据进行归约操作(求和)后,只获取位置编号和自己节点编号相同的归约数据。HCCL提供的ReduceScatter操作主要分为四个步骤完成计算:① 将各rank的输入内存拷贝到cclBuffer上。② 从对端拷贝所需数据(相同位置数据)到本rank的cclBuffer上。③ 使用MTE3单元执行求和归约计算。

2025-12-31 16:01:51 799

原创 基于Atlas 900 A3 SuperPoD推理部署Deepseek-R1性能优化实践

本次DeepSeek-R1模型在Atlas 900 A3 SuperPoD的性能突破实践,核心是构建了"Omni-Infer框架主导+CANN全栈支撑"的协同优化体系,精准解决了大规模集群推理中的通信瓶颈、调度不均、启动时延高、计算冗余等痛点,最终达到608QPM的突出成果。实践充分验证了Omni-Infer套件对于大模型调度的管理能力以及CANN作为底层软件栈对于大模型推理的优化能力,形成了一套高效的Ascend平台大模型推理优化方案。

2025-12-31 16:01:18 843

原创 基于Atlas 900 A3 SuperPoD的LongCat-Flash模型推理性能优化实践

在昇腾设备的大模型推理场景下,对于一些可并行的场景,可以划分多个stream做并行计算,多个stream上的计算形成overlap,从而降低整体计算耗时。多流场景下,会出现所有核(Core)都被一条流占用的情况,导致算子执行并行度降低,因此需要把核分给不同的流用,从而保证算子并行执行收益。

2025-12-30 10:20:11 796

原创 【企业对话专场直播预告】12月29日晚7点,基于AscendNPU IR构建Triton扩展深度学习编译器DLCompiler

通过Ascend C算子开发能力认证(中级)完成社区任务、分享学习成果、优秀嘉宾分享。可赢取华为三折叠、笔记本电脑等超级大奖!扫描下方二维码完成报名,一起来挑战!【昇腾CANN】视频号、B站。在线解答开发者弹幕提问!

2025-12-29 10:04:24 109

原创 昇腾CANN HIXL助力破解RL推理长尾难题

昇腾CANN的全面开源开放,正为开发者构建起更开放、更灵活的AI原生开发生态。作为昇腾CANN核心组件之一的单边通信库HIXL,现已正式加入开源阵营,凭借其解耦化设计与高效传输能力,让开发者能够自主快速构建大模型PD分离、RL后训练参数切换、模型参数缓存等多样化业务场景,为AI技术在实际业务中的应用提供底层支持。

2025-12-27 10:52:38 636

转载 【开源贡献案例】端到端打通transformer仓experimental路径首个开源MIX算子

在算子开发前,我们首先需要将我们的需求从算法原理转换为文字描述:本算法设计公式为, 其中为RoPE算法原始输入,mat=[D,D]为本方案特有的新增矩阵,与原始RoPE算法相同。所以本算法是一个同时需要使用Cube(矩阵乘)和Vector(向量)的MIX融合算子。通过调研发现,业界最常用的D=128,所以本文所述自定义算子仅编写支持D=128的输入和昇腾910系列环境,后续泛化版本预计通过CANN正式版本发布。最终可以构建出整体的工程目录最终可以构建出整体的工程目录cd dist。

2025-12-27 10:50:48 29

原创 自定义算子开发系列:Ascend C RTC即时编译

传统算子静态编译技术通过提前将算子编译成可执行的二进制数据保存到存储设备,供算子调用程序运行时加载调用。在当前大模型的应用场景下,该编译方式存在了以下两点挑战:1.大模型的输入语句不定长,使得模型中算子shape不确定,静态编译方式难以为每个shape提供最佳的算子性能。2.算子通常都需要持续优化迭代,静态编译方式下由于算子对于调用程序的交付件是算子二进制文件,每次迭代需要重新编译算子,维护和优化不太方便。因此昇腾推出了。

2025-12-27 10:48:54 773

原创 【今日直播】限时免费体验CANN开发环境

CANN持续关注社区开发者声音,众多开发者的反馈的开发环境诉求已经纳入社区建设规划。目前社区已快速构建一站式开发平台,即日起面向开发者开放体验,资源有限,先到先得。请锁定今晚直播,掌握资源获取及使用平台详情。关于CANN社区的其他诉求或反馈,除了issue提交。也可以通过问卷反馈给我们。

2025-12-26 16:18:14 140

原创 Graph Engine大揭秘

借助GE图引擎能力,PyTorch、TensorFlow、MindSpore、PaddlePaddle等主流AI框架的算法模型可以统一转换为使用Ascend IR(Ascend Intermediate Representation)表示的计算图(Ascend Graph),并通过GE的图编译加速技术,显著提升计算图在昇腾硬件上的执行效率。相较于单个计算操作依次下发的方式,图模式具备图的全局视角,能够更有效地简化和优化计算图操作,从而获得更优执行性能。2、使用困难:接入成本高,自定义优化接入困难。

2025-12-25 11:46:19 228

原创 明日直播 |PyPTO & Runtime开源解读

2025-12-24 21:16:35 85

原创 硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

在保持模型能力的前提下,如何降低模型存储需求,如何降低模型计算时延,是模型开发者和性能优化专家研究的热点问题,而模型量化压缩优化是解决这些问题的最重要的手段之一。对模型优化的开发者来说,硬件资源通常比较有限,如何在有限的硬件资源中高效完成模型压缩的全过程,也是开发者重点关注的问题。欢迎关注昇腾CANN公众号,及时获取直播时间与观看链接,相信通过这次直播,大家会对AMCT的使用有更深入的了解,也能够在今后的开发工作中充分发挥它们的强大威力,为昇腾芯片的应用开发带来更多的创新和突破!

2025-12-24 14:40:33 165

原创 推出新型面向 AI 加速器的高性能编程框架——PyPTO

PyPTO 通过多层级 IR 系统、基于 Tile 的编程模型、更高层次的 Tensor 抽象、MPMD 执行调度、Man-In-The-Loop 工作流和分层抽象设计,致力于消除算法与算子开发的鸿沟,平衡编程简单性和控制力,为不同层次的开发者提供相应的抽象层次和工具支持。提供完整的可视化工具和分析工具,一致的错误信息和诊断机制,高质量示例和文档,与主流 IDE 和构建系统的集成,这些都是生态成功的关键因素。大多数开发者可以快速获得可用的实现,而性能敏感的开发者可以通过工具链进行深度优化,追求极致性能。

2025-12-24 14:22:04 910

原创 npugraph_ex:CANN aclGraph的图模式样板间

随着人工智能的飞速发展,大模型推理场景的“低时延,高吞吐”诉求推动了PyTorch图模式的快速发展。torch.compile是PyTorch 2.0推出的核心特性,通过即时编译(JIT)将PyTorch代码转换为计算图,支持inductor等多种后端编译器,并利用图捕获和重放能力减少Host下发头开销,以优化大模型推理时延。

2025-12-23 20:34:18 742

原创 Oam-Tools & AMCT工具介绍与使用

12月24日19点锁定直播间。

2025-12-23 20:30:03 83

原创 明日直播——HCCL集合通信算法解密 ​​​

2025-12-22 20:07:36 103

原创 基于昇腾的SAM投机解码:长序列强化学习训练加速利器

SAM(suffix automaton,后缀自动机)是一个能够高效解决许多字符串问题的数据结构。直观上,字符串的 SAM 可以理解为给定字符串的所有子串的压缩形式。SAM主要维护两个重要的集合:结束位置endpos:考虑字符串 s 的任意非空子串 t,记 endpos(t) 为字符串 s 中 t的所有结束位置的集合。例如,对于字符串 ABCBC 我们有 endpos(BC)={2,4}。在SAM 中,所有满足 endpos 集合相同的字串被归入同一个状态,也被称为endpos 等价类。

2025-12-22 14:18:33 670

原创 CANN集合通信技术解读——NHR算法

观察ReduceScatter阶段的输出结果,Rank 1得到了第2份数据切片的Reduce结果,Rank2得到了第1份数据切片的Reduce结果,因为交换了通信的数据切片编号,因此得到的输出(要求的输入)是乱序的。下面介绍几种常见的通信算法。从底层机制上看,单个通信任务在语义上是针对一块连续内存数据的,对于每一块连续内存的通信,底层都需要下发一个单独的任务,所以NHR算法通过这种方式将每次发送中的不同数据块尽可能拼成一块连续的内存数据块,可以进一步减少通信任务下发的开销和通信的头开销,提升通信性能。

2025-12-19 21:26:34 549

原创 自定义算子开发系列:AICPU Tiling下沉编程方式介绍

Host Bound一直是算子调用的显著性能瓶颈,造成Host Bound的核心原因就在于算子在Kernel执行前都需要计算出TilingData,而TilingData的计算通常是在Host侧完成再拷贝到Device侧的。针对这一问题我们推出了AICPU Tiling下沉编程方式,使用Device侧的AICPU计算TilingData,节省了Host侧拷贝TilingData到Device侧的步骤,降低算子执行耗时。通过减少Host与Device的交互,提升算子执行性能。

2025-12-19 18:55:36 828

原创 基于torch_npu的IPC特性介绍

IPC(Inter-Process Communication,进程间通信)允许不同进程之间直接访问共享的设备内存,而无需进行显式的内存拷贝操作,从而显著提升通信效率。昇腾当前已基于Ascend Extension for PyTorch(昇腾NPU适配PyTorch框架的插件,也称为torch_npu)提供了IPC特性的原子能力,使开发者在分布式训练、强化学习等需要多进程大规模数据通信场景可以自主开发优化,提升数据传输性能并节省设备内存消耗。

2025-12-18 11:03:55 983

原创 三步上手:TorchAir自定义FX Pass实战指南

它类似于传统编译器中的优化步骤,允许在不修改模型源代码的前提下,实现算子融合、常量折叠等高级变换。TorchAir通过开放此能力,使得开发者不仅能在FX Graph中直接定义并执行算子替换、子图重构等通用优化,还能调用TorchAir特有的API,在FX Graph中直接表达原生框架所不具备的多流并行与流间执行时序控制等硬件级优化。编译过程中涉及的主要图优化阶段如下图所示,可以看到TorchAir本身在FX图优化阶段内置了部分FX图优化Pass,开发者注册的自定义Pass将融入此流程:若注册到。

2025-12-17 17:36:47 667

原创 自定义算子开发系列:TilingKey模板化编程介绍

不同的Kernel实现分支可以通过TilingKey来标识,Host侧设置TilingKey后,可以选择对应的分支,例如:一个算子在不同的shape下,有不同的算法逻辑,Kernel侧可以通过TilingKey来选择不同的算法逻辑,在Host侧Tiling算法也有差异,Host/Kernel侧通过相同的TilingKey进行关联。TilingKey模板化编程既提供了一种简单的多场景算子开发编程范式,简化了算子的开发难度,也实际提升了算子的执行效率,帮助开发者更便捷的开发高性能多场景算子。

2025-12-10 16:19:12 954

原创 基于HIXL+Mooncake+vLLM的KV Cache池化与高性能传输联创实践

HIXL秉持极简易用的设计原则,具备高度可集成性,并积极融入主流生态社区。此次 HIXL 顺利与 Mooncake、vLLM 实现集成,正是 CANN 开源价值的具体体现:开源发布后,借助社区的力量,对接业界常用的KV池化和传输库Mooncake,进一步打通了 vLLM + Mooncake + HIXL 的技术链路,使该方案成为 Ascend 上池化方案的首选。并以此为依托,和用户完成联创将大模型推理的 TTFT 提升了 40%。

2025-12-04 19:52:28 1063

原创 vLLM-Ascend:大模型推理的优化实践

vLLM-Ascend是一个完全开源的项目,致力于让大模型推理在昇腾芯片上运行得更高效、更经济。vLLM-Ascend开源项目目前已经达成如下能力并且在多个商用场景实现大模型的高效部署与商用上线:1.vLLM原生特性支持:除inductor外社区特性全部支持,如PD分离、chunk prefill、Prefix cache、并行配置、multi lora、function call、MTP、图模式、静态负载均衡。

2025-11-28 15:59:31 1206

原创 FlashRecovery:大模型训练中快速且低成本的故障恢复方案

与此同时,控制器会执行节点重新调度,用健康的节点替换故障节点。通过对正常节点和故障节点分别应用不同的策略,将重新创建的节点数量限制在仅遇到错误的节点,并减少了不必要的容器重启,这使得重启过程与训练集群的规模无关,并且更快。当优化器步骤过程中发生故障时,控制器会从除故障节点上的设备之外的所有正常设备接收step=i+1,此时正常节点上所有过程的优化器步骤结束,可以发出“停止”、“清理”和“重置”指令,而不会产生任何副作用,并从step=i+1更新的参数中恢复故障节点上训练过程的模型状态。),具体细节见下表。

2025-11-27 19:35:18 670

原创 基于CANN开源算子库的二次开发实践:CrossEntropyLoss与Zloss融合

面对这一挑战,客户参考了昇腾CANN开源算子源码仓ops-nn中高性能CrossEntropyLoss算子的实现,该算子已经具备高性能的CE Loss交叉熵损失函数计算能力,客户在此基础上,融入了ZLoss和lseForZLoss计算,分别用于计算辅助损失ZLoss和ZLoss场景下输出给反向传播的值。这两个损失函数的原始实现存在显著的性能瓶颈——它们的计算由一系列串行的小Vector算子构成,导致了不必要的计算开销,影响了整体训练效率,如下图。在AI大模型训练过程中,性能优化是永恒的主题。

2025-11-27 10:43:40 369

原创 【码力全开特辑直播预告】11.27晚7点,一节课掌握MlaProlog融合算子高效开发技巧

2025-11-26 10:12:38 306

原创 大模型推理加速利器SuperKernel技术综述

在低计算量的前提下,如何进一步提升模型性能成为关键。在某客户的实地验证中,结合CANN提供的优化算子和客户自定义开发的优化算子,成功将解码阶段的延迟降低了6ms,有效改善了终端用户的使用体验。这种对同一地址的并发访问会在共享的L2缓存层面形成一个串行化的访问队列,导致多个核心的请求发生争用,即使数据已缓存在L2中,也会因队列拥堵产生访问延迟,显著削弱多核并行带来的性能提升。为此,在SK代码生成阶段,可根据前后两个依赖算子的类型,动态选择并插入不同粒度的同步模式,从而有效降低同步开销,提升执行效率。

2025-11-24 14:28:22 721

原创 【码力全开特辑直播预告】11.20晚7点,揭秘开源Cube算子,解析高效开发要领

报名CANN训练营完成AscendC算子开发认证(中级)及社区任务,即有机会赢取华为三折叠手机、笔记本电脑等大奖。立即扫码报名,开启挑战之旅!

2025-11-19 11:21:23 223

原创 CANN 开源赋能协同创新:SGLang+Mooncake+CANN HIXL的PD分离D2D部署

现在,随着CANN各个组件的开源,任何特性的更新,开发者都可以通过开源组件仓编译部署的方式立即使用,甚至还能对代码进行魔改,在原有基础上开发适合自己场景的定制化特性。昇腾 CANN 的全面开源开放成为了PD分离方案快速落地的强力支撑。通过CANN HIXL(Huawei Xfer Library,昇腾单边通信组件)的开源,开发者获得了PD分离部署中KVCache在Prefill节点和Decode节点快速传输的关键能力,结合SGLang和Mooncake的框架能力,迅速打通了PD分离部署D2D同构特性。

2025-11-19 09:16:43 759

原创 昇腾AI算法挑战赛·大咖直播

2025-11-17 13:50:43 132

原创 CANN Meetup 北京站 | 11月15日,邀您共赴一场技术盛宴

2025-11-10 17:45:10 322

原创 图融合super kernel技术大揭秘

本场直播将带来CANN新开源仓graph-autofusion的系统解读,含:设计理念、组件架构及发展规划。还有图融合技术super kernel的使用方法及样例演示。

2025-10-31 14:53:48 441

原创 16点开讲,如何基于NPU进行DeepSeek-R1 RL训练优化?

2025-10-30 11:29:30 125

原创 TileLang Ascend——让Al算子开发更简单

直播马上开始扫码参与直播 TileLang Ascend——让Al算子开发更简单。

2025-10-29 14:36:36 138

原创 CANN亮相2025长沙1024程序员节,以开源开放铸就AI算力新基座

作为昇腾AI的核心软件平台, CANN持续深化开源开放战略,将核心软件能力全面向社区开放,构建起社区共建共治的发展模式,大幅降低开发者在昇腾硬件上的开发门槛,让每一位开发者都能基于昇腾AI释放创新潜能。任旭东指出,未来十年将是“智能体的十年”,而支撑这一变革的关键,正是以CANN为代表的AI算力基座。演讲尾声,任旭东强调:“生态是一场真正的无限游戏。”CANN通过持续的开源贡献、技术赋能与生态共建,与全球开发者并肩,共同构筑智能世界新生态,推动AI算力走向更开放、更高效、更普及的未来。

2025-10-28 10:35:53 361

原创 CANN首个训练样例仓库来袭!手把手带你玩转Qwen RL训练,揭秘DeepSeek-R1 RL训练性能优化之道!

为了方便广大开发者使用昇腾环境进行大模型的微调、续训,即将开源的cann-recipes-train仓库,针对LLM与多模态模型训练业务中的典型模型、算法,提供基于CANN平台的优化样例,帮助开发者简单、快速、高效地使用CANN平台进行模型训练。然而,开发者在实际训练过程中,常常面临模型适配难、算法优化复杂、硬件资源利用率低等难题。深入讲解 DeepSeek-R1-671B模型的 RL 训练全流程优化实践样例,涵盖推理、训练、训推调度等各个关键阶段,通过实际案例的拆解,为开发者提供可借鉴的实战经验。

2025-10-28 08:52:45 285

原创 基于CANN开源算子库的二次开发实践:CrossEntropyLoss与Zloss融合

面对这一挑战,客户参考了昇腾CANN开源算子源码仓ops-nn中高性能CrossEntropyLoss算子的实现,该算子已经具备高性能的CE Loss交叉熵损失函数计算能力,客户在此基础上,融入了ZLoss和lseForZLoss计算,分别用于计算辅助损失ZLoss和ZLoss场景下输出给反向传播的值。这两个损失函数的原始实现存在显著的性能瓶颈——它们的计算由一系列串行的小Vector算子构成,导致了不必要的计算开销,影响了整体训练效率,如下图。在AI大模型训练过程中,性能优化是永恒的主题。

2025-10-21 09:00:30 405

原创 CANN开源开放系列直播

本周三10月15日19:00-20:00,锁定CANN直播间将为您带来新仓发布。

2025-10-14 17:22:32 289

原创 哈工大 x CANN团队联合开源昇腾原生Numpy,首位GitCode社区贡献者已加入

通过精心设计的NPUArray核心数据结构,AsNumpy在Python层完全兼容Numpy API,同时在C++底层深度集成了华为 Ascend C算子库,对NPU算子(包括数学运算、线性代数、随机采样等)进行系统化封装,并高效管理dtype、shape以及aclTensor等底层资源,实现了与主机端numpy.ndarray的双向拷贝。AsNumpy在Python层完全兼容Numpy API,随未来硬件而演进,用户无需额外学习成本,即可在昇腾NPU上实现高效的科学计算。

2025-10-11 17:14:45 432

原创 深度解读昇腾CANN动态Shape图调度加速技术

下沉调度模式通常适用于静态Shape模型,由于输入Tensor的Shape固定不变,可以在编译阶段完成内存编排和Tiling计算,因此可以将模型中的算子以整图形式下发到Device上,执行时,只需在Host侧下发一个模型执行的Task即可触发模型在Device上调度执行,从而提升模型调度性能。相反,如果一个模型中Host的下发速度慢于Device的执行速度,Device在执行完当前任务后会等待Host下发下一个算子,这会导致Device出现较大的空闲时间,从而延长模型的端到端执行时间。

2025-09-19 11:19:11 1040

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除