- 博客(130)
- 收藏
- 关注
原创 Ascend C矢量编程文档升级:带你掌握多核复杂场景下的Tiling数据切分
尾核&尾块:介绍输入数据无法在多个核间均匀分配,以及在单个核内无法被切分为多个相同大小且32字节对齐的数据块的场景,当算子在AI处理器的多个核上运行时,若数据无法平均分配到每个核,且每个核内的数据也不能均匀分割,如何进行核间和核内的数据切分,以及处理尾核和尾块数据,从而帮助开发者掌握数据切分后同时产生尾核和尾块的处理策略。然而,对于一些深度开发者而言,需要了解在多核、Tiling切分等复杂场景下的更深入内容介绍,以及更详尽的理论知识和实践方法,以便熟练掌握自定义算子的开发。
2025-06-13 14:30:34
253
原创 深度学习的分布式训练与集合通信(三)
而SP是按照输入数据的序列长度的维度分的,涉及到的通信主要是正向一次的KV矩阵的AllGather与反向一次的KV矩阵梯度的ReduceScatter。总结一下就是,Attention阶段的序列并行,在模型训练的前向传播中,主要涉及到的集合通信操作有二,一是计算注意力矩阵A′时对于所有序列并行节点上矩阵K的AllGather操作,二是计算输出矩阵O时对于所有序列并行节点上矩阵V的AllGather操作,如下图所示。虽然都是序列并行,但由于处于不同的运算阶段,它们的行为以及影响是不同的。
2025-06-12 17:35:04
1096
原创 【CANN全新升级】CANN创新MLAPO算子,DeepSeek模型推理效率倍增
随着DeepSeek系列模型的持续演进,昇腾也在不断探索推理预处理阶段中MLA的计算加速技术,通过VV融合(多个Vector算子融合),进一步提升MLA预处理阶段的计算效率。Q在经过RmsNorm后,进入Q升维矩阵做矩阵乘,升维后每个token变为128个Head,每个Head的HeadDim为192。DeepSeekV3火爆全球的同时,针对DeepSeek系列模型的计算优化思路也在不断探索泛化中,从小融合到大融合,多流水并行以及未来更高自由度的量化方式,昇腾也将持续探索更多可能,以工程创新释放更强算力。
2025-06-09 20:18:13
545
原创 昇腾CANN LLM-DataDist开发指南全新发布,快来社区体验吧!
LLM-DataDist作为大模型分布式集群和数据管理组件,提供了高性能、零拷贝的点对点数据传输的能力,该能力通过简易的API开放给用户。LLM-DataDist开发的基本流程为“LLM-DataDist初始化 > 建链操作> 申请KV Cache > 推理脚本进行分离部署> 拉取缓存的KV Cache > 执行推理脚本> 释放资源”,LLM-DataDist提供了接口供上层框架调用,实现上述流程。LLM-DataDist的相关概念和应用场景,是学习如何使用LLM-DataDist的必备知识。
2025-06-09 16:27:50
184
原创 CANN核心能力全新升级、深度开放,构筑昇腾AI创新基石
CANN是充分释放处理器极致性能的关键,今年昇腾在计算加速、通信加速、内存优化三大领域协同发力,持续释放硬件价值,创新加速技术,以满足前沿模型架构及工程创新的发展诉求。,通过MLAPO融合算子技术,将MoE模型中13个串行小算子整合为超级大算子,结合Vector与Cube计算单元并行处理,使计算耗时从109ms降至45ms,性能提升超142%,显著释放硬件计算潜力。,开放AscendNPU IR接口,实现开发者“无感迁移”开发体验,同时通过开源社区持续输出技术能力,推动昇腾与全球AI开发生态的深度融合。
2025-06-09 16:17:50
623
原创 CANN全面开放,使能每一位开发者自主创新
同时,在Gitee社区上提供了264个基础算子,26个融合算子优秀实践,例如FlashAttention、Matmul等典型算子,开发者可以匹配对应业务场景进行魔改,有基础的开发和创新。CANN(Compute Architecture for Neural Networks)作为昇腾AI的核心基础软件平台,搭起了AI框架与昇腾硬件的桥梁,始终以“使能每一位创新者”为目标,坚持深度开放策略,持续技术创新,释放硬件极致潜能,推动AI开发效率与性能的双重突破。随着AI技术的高速发展,创新已成为当下主旋律。
2025-06-09 16:10:39
892
原创 昇腾CANN集合通信技术解读——细粒度分级流水算法
继续执行Ring算法,每一步在进行Server间数据传输的同时,还会向Server内其它Rank传输上一步接收到的数据块,Ring算法的最后一个步骤结束后,仅需要在Server内再进行一次数据块的传输即可完成全部算法步骤(Rank初始数据块的Server内传输操作,可以隐藏在Ring算法的第一步中进行),Rank0上的全部传输任务编排如下图所示,LocalCpy操作仅在输入输出内存不同场景中执行,用于将数据块从输入内存移动到输出内存,在输入输出内存相同场景中,则无需执行该操作。
2025-06-09 12:09:56
544
原创 Ascend C常见问题案例:含有Matmul高层API的算子精度问题
本节针对含有Matmul高层API的算子,为排查在开发过程中遇到的精度问题,是否为算子中Matmul高层API调用方式导致,提供初步的问题定界和定位指导。如未特殊说明,下面均以Atlas A2 训练系列产品/Atlas 800I A2 推理产品上的案例为例。主要介绍根据如下六个步骤,开展具体排查:CPU域调试,观察报错信息;Matmul Tiling是否有修改,修改是否合理;算子隐藏Vector计算,仅调用Matmul API,算子功能是否正确;单核执行,算子功能是否正确;
2025-04-27 14:25:09
682
原创 昇腾CANN算子共建仓CANN-Ops正式上线Gitee,首批算子已合入
西北工业大学的徐韬教授及其课题组,将昇腾CANN等专项课程融入教学体系,高校开发者得以直面昇腾处理器优化的实际需求,系统掌握从算法设计到硬件适配的全链条技能,同时高校作为创新人才的摇篮,可推动学术成果转化为产业应用,将研究成果反哺生态,助力中国在深度学习基础领域实现从"跟跑"到"领跑"的跨越。在人工智能技术呈指数级发展的今天,AI创新已走向更底层的算法创新,以DeepSeek为例,通过MoE模型架构和底层算法创新,不仅获取极佳的模型性能,又更大程度释放硬件性能,降低硬件使用成本。
2025-04-01 20:57:21
854
原创 深度学习的分布式训练与集合通信(二)
而后者对应的则是MoE层,它有点像把这个大的全连接层打散成很多可以并行运作的小的全连接单元,每个单元称之为一个专家,通过在训练中对不同专家进行有导向有分工的学习,同时训练一个输入数据进入专家模块之前的路由选择机制,MoE就可以在保证神经网络效果的同时大大减少网络的计算量。上面是从计算并行的角度来说的,如果从存储的角度来看,故事就反过来了——更多的小批次的数据进入流水,意味着从一个数据的产生到消耗之间,更多的与之无关的计算被插入进来,这些计算也会产生需要存储的中间数据。下面来总结下张量并行涉及到的通信方式。
2024-12-12 17:37:09
1103
原创 昇腾CANN 8.0基于LLM P-D分离部署方案发布LLM-DataDist组件:高效低成本,简单易集成
降低LLM推理时延、提升LLM推理集群的吞吐和算力利用率,成为相关AI应用大规模产品化变现的迫切要求。在实际的深度学习模型部署中,考虑到Prefill和Decode两阶段的计算/通信特征的差异特点,为了提升性能和资源利用效率,通过P-D分离部署方案将Prefill和Decode分别部署在不同规格和架构的集群中,并且配合服务层的任务调度,在满足TTFT和TBT指标范围内,结合Continuous batching机制尽可能提高Decode阶段的batch并发数,在提供更好用户体验的前提下,提升算力利用率。
2024-12-02 14:13:41
1790
原创 深度学习的分布式训练与集合通信(一)
其中,一对一的通信模式又被称为点到点通信(Point-to-Point,P2P),涉及到多个计算节点参与的一对多,多对一,和多对多的通信模式则属于集合通信(Collective Communication,CC)操作的范畴。在模型训练之前,有一些准备性工作,如数据预处理,模型选择,损失函数和优化方法的确定,以及超参数的预设等,这里不做详细展开。
2024-11-20 09:27:11
1053
原创 Ascend C算子性能优化实用技巧05——API使用优化
对于Matmul得到的结果矩阵C(m, n),若后续需要和GM上的矩阵D(m, n)进行Add操作,则可以在GetTensorC接口或者IterateAll接口的GM通路上,将enAtomic参数设为1,开启AtomicAdd累加操作,在搬出矩阵C到GM时,矩阵C的结果将直接累加到矩阵D的GM地址上,从而实现与矩阵D的Add操作。Counter模式下,只需要设置mask为所有参与计算的元素个数15000,然后直接调用Add指令,即可完成所有计算,不需要繁琐的主尾块计算,代码较为简练。
2024-11-15 14:39:19
1157
原创 文档上新:集合通信用户指南全新发布,欢迎登陆昇腾社区体验~
全新上线《集合通信用户指南》,介绍相关概念与软件架构,提供全量通信原语介绍,帮助了解HCCL基本操作,提供详尽的开发流程、完整代码样例,轻松实现集合通信功能
2024-10-28 10:28:53
574
原创 昇腾CANN 8.0正式发布,多项核心技术引领大模型原生创新
重磅发布CANN 8.0:新版本新增80多个融合算子、100多个Ascend C API,自研NB2.0和NHR集合通信算法并全面适应于超节点方案,基于LLM P-D分离部署方案设计并发布LLMDataDist组件,同时支持图模式能力扩展库TorchAir,提升PyTorch在NPU上的大模型推理性能。
2024-10-18 16:01:46
1190
原创 Ascend C算子性能优化实用技巧04——Tiling优化
什么是Tiling简介Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。使用Ascend C,开发者可以基于昇腾AI硬件,高效的实现自定义的创新算法。目前已经有越来越多的开发者使用Ascend C,我们将通过几期“Ascend C算子性能优化”专题分享,围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优性能的算子。
2024-10-10 17:06:56
1460
原创 昇腾AI异构计算架构CANN——高效使能AI原生创新
描述异构计算与人工智能的关系以及昇腾AI异构计算架构CANN;介绍开发者如何利用CANN的原生能力进行大模型创新,构筑差异化竞争力。
2024-09-23 16:59:51
2314
原创 Ascend C算子性能优化实用技巧03——搬运优化
目前已经有越来越多的开发者使用Ascend C,我们将通过几期“Ascend C算子性能优化”专题分享,围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优性能的算子。由于AI处理器内部设计约束,从GM向Local Memory搬运数据时,保证GM地址512B对齐可以最高效的发挥出带宽的效率。如下图示例,展示了在512B对齐以及32B对齐情况下单核的带宽效率:搬运同等数据量,带宽差距最大的情况,32B对齐场景只能达到512B对齐场景的70%。
2024-09-05 16:12:24
1142
原创 Ascend C算子性能优化实用技巧02——内存优化
算子实现中涉及多次vector计算,且前一次计算输出是后一次计算输入的情况下,可将前一次计算输出暂存在UB(Unified Buffer)上直接作为下一次计算的输入,不需要将前一次的计算输出从UB搬运到GM后再从GM搬运到UB。使用UB Buffer融合方式后,在UB上进行连续vector计算时,前一次的结果可直接作为后一次计算的输入,继续在UB上进行计算,不需要中间的搬进搬出,只需在开始计算时将源操作数搬运到UB,以及全部计算结束后将最终结果从UB搬运到GM,共2次搬进搬出。
2024-08-29 16:59:28
1301
原创 Ascend C算子性能优化实用技巧01——流水优化
围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优性能的算子。
2024-08-27 15:31:09
1537
原创 基于Ascend C的Matmul算子性能优化最佳实践
Matmul算子实现的功能是矩阵乘法,通过Ascend C算子编程语言优化该算子的实现逻辑,可以使其在昇腾AI处理器上获得更优的执行性能。
2024-08-13 16:15:18
1677
原创 一文了解AOL算子加速库
为加速大模型算力释放,昇腾提供AOL(Ascend Operator Library)算子加速库,不仅覆盖Softmax、MatMul等基础算子,也包括了大模型结构泛化的Flash Attention等高性能融合算子,开发者可以直接使用昇腾内置的算子加速库使能大模型创新与应用。
2024-07-25 15:55:22
1167
原创 深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销
在模型为动态shape的情况下,由于输入tensor shape不确定,需要在上一个算子完成shape推导后,才能确定下一个算子的输入shape等信息,因此无法将整个模型下沉执行,只能采用Host调度模式。
2024-07-19 10:45:45
967
原创 深度解读昇腾CANN内存复用技术,降低网络内存占用
GE图引擎基于业界常规的内存优化技术,借助全图视角对内存复用算法进行了更好的寻优处理,同时进行了Topo排序优化降低网络内存理论最小值,从而更有效地降低网络内存占用。
2024-07-12 16:09:06
1269
原创 深度解读昇腾CANN多流并行技术,提高硬件资源利用率
多样化的计算任务以task的形式下发到各硬件资源执行,GE(Graph Engine)图引擎采用多流并行算法,在满足计算图任务内部依赖关系的前提下,支持高效并发执行计算任务,从而大大提高硬件资源利用率和AI计算效率。
2024-07-01 11:07:39
1302
原创 深度解读昇腾CANN计算图优化技术,提升算法计算效率
面向计算图编译和运行优化场景,昇腾AI异构计算架构CANN(Compute Architecture for Neural Networks)开放GE(Graph Engine)图引擎,通过计算图优化、计算图下沉、内存复用和多流水并行等技术可将计算图执行性能提升20%,同时开放图引擎接口支持开发者自定义图结构,获得最优执行性能。
2024-06-28 15:56:37
1683
原创 Ascend C 2.0新特性详解,支撑大模型融合算子高效开发
全新升级的Ascend C 2.0版本将进一步贴近用户大模型场景的开发诉求,带来更易用的开发体验和更强大的算子执行性能。
2024-06-13 15:50:22
1244
1
原创 基于Ascend C的FlashAttention算子性能优化最佳实践
针对FlashAttention反向融合算子的性能优化方案展开介绍,并通过优化实现了典型场景4倍左右的性能提升,希望对开发者优化此类基于Ascend C开发的融合算子带来启发。
2024-06-07 16:15:15
1068
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人