自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 收藏
  • 关注

原创 一文了解AOL算子加速库

为加速大模型算力释放,昇腾提供AOL(Ascend Operator Library)算子加速库,不仅覆盖Softmax、MatMul等基础算子,也包括了大模型结构泛化的Flash Attention等高性能融合算子,开发者可以直接使用昇腾内置的算子加速库使能大模型创新与应用。

2024-07-25 15:55:22 554

原创 深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销

在模型为动态shape的情况下,由于输入tensor shape不确定,需要在上一个算子完成shape推导后,才能确定下一个算子的输入shape等信息,因此无法将整个模型下沉执行,只能采用Host调度模式。

2024-07-19 10:45:45 690

原创 深度解读昇腾CANN模型下沉技术,提升模型调度性能

GE模型下沉技术的相关介绍就到这里,欢迎大家关注后续技术分享。如需获取更多学习资源请登录。

2024-07-15 10:06:42 561

原创 深度解读昇腾CANN内存复用技术,降低网络内存占用

GE图引擎基于业界常规的内存优化技术,借助全图视角对内存复用算法进行了更好的寻优处理,同时进行了Topo排序优化降低网络内存理论最小值,从而更有效地降低网络内存占用。

2024-07-12 16:09:06 974

原创 深度解读昇腾CANN多流并行技术,提高硬件资源利用率

多样化的计算任务以task的形式下发到各硬件资源执行,GE(Graph Engine)图引擎采用多流并行算法,在满足计算图任务内部依赖关系的前提下,支持高效并发执行计算任务,从而大大提高硬件资源利用率和AI计算效率。

2024-07-01 11:07:39 861

原创 深度解读昇腾CANN计算图优化技术,提升算法计算效率

面向计算图编译和运行优化场景,昇腾AI异构计算架构CANN(Compute Architecture for Neural Networks)开放GE(Graph Engine)图引擎,通过计算图优化、计算图下沉、内存复用和多流水并行等技术可将计算图执行性能提升20%,同时开放图引擎接口支持开发者自定义图结构,获得最优执行性能。

2024-06-28 15:56:37 1095

原创 Ascend C 2.0新特性详解,支撑大模型融合算子高效开发

全新升级的Ascend C 2.0版本将进一步贴近用户大模型场景的开发诉求,带来更易用的开发体验和更强大的算子执行性能。

2024-06-13 15:50:22 779 1

原创 基于Ascend C的FlashAttention算子性能优化最佳实践

针对FlashAttention反向融合算子的性能优化方案展开介绍,并通过优化实现了典型场景4倍左右的性能提升,希望对开发者优化此类基于Ascend C开发的融合算子带来启发。

2024-06-07 16:15:15 770

原创 Ascend C教程文档全新来袭!囊括最佳实践、硬核原理、开发技巧...快来get新技能~

昇腾Ascend C文档升级,已在昇腾社区上线。

2024-05-31 10:29:53 500

原创 一文教你如何调用Ascend C算子

介绍基于Ascend C算子编程语言完成自定义算子的开发和部署后,如何调用自定义算子验证算子功能。

2024-05-27 11:05:12 929

原创 如何基于香橙派AIpro对视频/图像数据进行预处理

基于香橙派AIpro对视频/图像数据进行预处理

2024-04-16 16:30:46 1032

原创 如何基于香橙派AIpro将开源框架模型转换为昇腾模型

介绍昇腾模型转换操作方法。

2024-04-15 10:49:35 750

原创 如何在香橙派AIpro开发板升级CANN软件包

本文指导将CANN软件升级到最新的社区版。

2024-04-12 09:59:18 579

原创 如何基于香橙派AIpro开发AI推理应用

本文介绍了昇腾计算语言AscendCL的基本概念,并以示例代码的形式介绍了如何利用AscendCL开发香橙派AIpro开发板的AI推理应用。

2024-03-19 10:09:14 1089

原创 香橙派AIpro开发板开箱测评

2023年12月,香橙派联合华为发布了基于昇腾的Orange Pi AIpro开发板,提供8/20TOPS澎湃算力,能覆盖生态开发板者的主流应用场景,让用户实践各种创新场景,并为其提供配套的软硬件。香橙派AIpro开发板一经发布便吸引了众多AI创客们的购买和体验,这款开发版到底长什么样?到底有哪些优势?具体开放了哪些外设接口?搭载昇腾AI处理器后跑AI推理性能咋样...

2024-03-11 10:09:10 943 4

原创 香橙派AIpro外设接口样例大全(附源码)

包括两个HDMI输出、GPIO接口、Type-C电源接口、支持SATA/NVMe SSD 2280的M.2插槽、TF插槽、千兆网口、两个USB3.0、一个USB Type-C 3.0、一个Micro USB、两个MIPI摄像头、一个MIPI屏等,预留电池接口。4. 重启后再次进入HDMI0测试程序所在路径,然后运行test.sh脚本就会播放一张图片到HDMI 显示器(默认显示 10 秒),并且同时会播放一段音频到HDMI显示器,如果HDMI显示器支持播放音频的话,还能听到声音。

2024-03-08 12:01:45 1074

原创 香橙派AIpro快速上手指南

在PC机上,进入香橙派官网,鼠标放置在“服务与下载”菜单,在弹出的菜单中单击“下载”,在下载页面找到“Orange Pi AIpro”,然后单击“Orange Pi AIpro”,进入下载详情页面,分别下载下图中的“官方工具”、“ubuntu镜像”。当开发板通过以太网口和PC连接时,先将PC的IP地址修改为和开发板的IP地址在同一个网段(例如开发板eth1网口为192.168.137.100,PC以太网口为192.168.137.101),再使用SSH工具远程登录开发板。

2024-02-28 10:55:29 1366

原创 CANN 2023年度盘点

2023-12-29 18:29:46 448

原创 Ascend C算子开发常见问题案例

Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,最大化匹配用户开发习惯;通过自动并行计算、孪生调试等关键技术,极大提高算子开发效率,助力AI开发者低成本完成算子开发和模型调优部署。本期分享几个Ascend C算子开发过程中常见问题的典型案例,并给出原因分析及解决方法。

2023-12-29 15:54:08 960

原创 昇腾Profiling性能分析工具使用问题案例

昇腾社区-官网丨昇腾万里 让智能无所不及开发者主页-昇腾社区。

2023-12-17 11:01:51 1142

原创 一文掌握Ascend C孪生调试

Ascend C提供。

2023-12-10 15:52:21 1138

原创 DVPP媒体数据处理视频解码问题案例(2)

优化应用代码逻辑,复用输出图片描述类型acldvppPicDesc时,在下一次解码前需重新设置输出图片format、width、height、widthStride、heightStride。循环调用aclvdecSendFrame接口解码视频中的每一帧码流时,在遇到异常帧之后,解码下一帧就会报错,退出应用进程。如果sample 解码正常,那就是开发代码有问题,可以参考VDEC示例代码,找到对应的视频解码的代码参考优化。查看),看的人多,说明在这一块,大家还是有些疑问的,所以本期继续分享其它。

2023-12-08 20:21:41 426

原创 【昇腾CANN技术月刊】2023.11-Ascend C在线课程上新;CANN 7.0大模型推理部署技术解密;特邀名校老师面对面分享Ascend C开发经验

好课推荐!Ascend C算子开发课程上线啦!适合新手入门/进阶提升,AI学习叠满BUFF;针对大模型推理场景,CANN最新发布的CANN 7.0版本有机整合各内部组件,支持大模型的量化压缩、分布式切分编译、分布式加载部署,并在基础加速库、图编译优化、模型执行调度等方面针对大模型进行极致性能优化。

2023-12-04 15:47:14 108

原创 好课推荐!Ascend C算子开发课程上线啦!适合新手入门/进阶提升,AI学习叠满BUFF~

昇腾全新推出Ascend C系列视频课程,通过这门课程的学习,您将掌握Ascend C编程语言的核心概念和技巧,了解如何编写高性能AI算子,并利用华为昇腾AI处理器加速您的AI应用。深度学习算法由一个个计算单元组成,我们称之为算子,在AI网络模型中,算子对应层或节点的计算逻辑,例如卷积层是一个算子、全连接层中的权值求和过程也是一个算子,它们是完成高性能AI计算的关键。全面掌握Ascend C算子开发和调用流程,独立完成算子Tiling开发,并进行单算子、网络中算子调用。学习并完成单算子、网络中算子调用。

2023-11-12 14:26:03 213

原创 昇腾CANN 7.0 黑科技:DVPP硬件加速训练数据预处理,友好解决Host CPU预处理瓶颈

随着人工智能的快速发展,越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成两个关键部分,一个是训练数据预处理,一个是模型训练,如何提升两者的处理性能成为提升模型训练性能的关键。一般情况下,数据加载预处理由host CPU处理,而模型训练计算是在NPU或GPU上处理的,两者一般并行执行,因此训练一次迭代的时间通常是两个处理时间的最大值。

2023-11-08 22:02:48 1224 2

原创 昇腾CANN 7.0 黑科技:大模型推理部署技术解密

近期,随着生成式AI大模型进入公众视野,越来越多的人意识到抓住AI的爆发就是抓住未来智能化变革的契机。AI基础设施如何快速部署使用,以及如何提升推理性能,逐渐成为众多企业关注的焦点。

2023-11-08 21:38:37 520

原创 AOE性能调优问题案例

AOE性能调优和ATC模型转换时,存在一些相同的参数,这些参数可能会影响网络的shape、网络中部分算子的dtype、网络结构等,所以这些参数在AOE性能调优和ATC模型转换/AOE再次调优时需要保持一致。AOE(Ascend Optimization Engine)是一款自动性能调优工具,目的是为了充分利用有限的硬件资源,满足算子和整网的性能要求。使用AOE完成调优后,生成了知识库,但在ATC转模型时却无法命中生成的知识库。变量内存)设置不合理,当调优过程中内存超过这些参数取值时,系统报错。

2023-11-05 17:33:48 141

原创 TensorFlow模型训练常见案例

昇腾社区-官网丨昇腾万里 让智能无所不及开发者主页-昇腾社区。

2023-11-05 11:23:33 629

原创 昇腾CANN 7.0 黑科技:大模型训练性能优化之道

通常情况下,通信耗时约占E2E耗时的10%~30%,当存在更大通信域时,通信占比会更大。为了释放昇腾硬件算力,昇腾AI异构计算架构CANN发布更开放、更易用的CANN 7.0版本,全面兼容业界的AI框架、加速库和主流大模型,同时通过大颗粒算子深度融合、Kernel调度策略优化、通信并发流水等技术手段,解决大模型训练核心问题,使能大模型性能深度优化。1750亿参数量的GPT-3预训练大约需要3TB内存,大模型训练在短序列长度时,模型参数是内存占用的主要部分,在长序列长度时,激活内存是主要部分。

2023-10-22 10:33:14 746

原创 昇腾AscendCL推理应用开发入门教程(基于Python语言)

利用Python语言的AscendCL接口可开发深度学习推理应用,本文将基于ONNX框架的ResNet50模型开发图片分类应用,帮您了解开发AI应用的基本过程。

2023-10-22 10:14:39 511

原创 NPU上PyTorch模型调优问题案例

在昇腾AI处理器上训练PyTorch框架模型时,可能由于算子在CPU上的下发速度、动态shape等问题,导致性能降低,那么本期就分享几个关于PyTorch模型调优的典型案例,给出调优思路及具体的调优方法。

2023-10-12 10:33:24 1282

原创 NPU上PyTorch模型训练问题案例

在昇腾AI处理器上训练PyTorch框架模型时,可能由于环境变量设置问题、训练脚本代码问题,导致打印出的堆栈报错与实际错误并不一致、脚本运行异常等问题,那么本期就分享几个关于PyTorch模型训练问题的典型案例,并给出原因分析及解决方法。

2023-09-26 14:53:13 3347 2

原创 ATC模型转换动态shape问题案例

ATC(Ascend Tensor Compiler)是异构计算架构CANN体系下的模型转换工具:它可以将开源框架的网络模型(如TensorFlow等)以及Ascend IR定义的单算子描述文件转换为昇腾AI处理器支持的离线模型;模型转换过程中,ATC会进行算子调度优化、权重数据重排、内存使用优化等具体操作,对原始的深度学习模型进行进一步的调优,从而满足部署场景下的高性能需求,使其能够高效执行在昇腾AI处理器上。

2023-09-07 09:55:44 583

原创 Ascend C保姆级教程:我的第一份Ascend C代码

进行核函数的定义,并在核函数中调用算子类的Init和Process函数。请将下文代码添加至add_custom.cpp的“核函数实现”注释处。1. 使用__global__函数类型限定符来标识它是一个核函数,可以被调用;使用__aicore__函数类型限定符来标识该核函数在设备端AI Core上执行。2. 算子类的Init函数,完成内存初始化相关工作,Process函数完成算子实现的核心逻辑。本样例中定义KernelAdd算子类,其具体成员如下。

2023-08-27 23:59:05 309

原创 昇腾Ascend C编程入门教程(纯干货)

一文get昇腾Ascend C编程入门全部知识点,只需要了解C++编程、理解对列通信与内存申请释放机制、通过调用相应的计算接口与搬运接口,就可以高效写出运行在昇腾AI处理器上的高性能算子。

2023-08-27 22:50:08 1076

原创 ATC模型转换环境问题案例

ATC(Ascend Tensor Compiler)是异构计算架构CANN体系下的模型转换工具,它可以将开源框架的网络模型(如TensorFlow等)以及Ascend IR定义的单算子描述文件转换为昇腾AI处理器支持的离线模型;模型转换过程中,ATC会进行算子调度优化、权重数据重排、内存使用优化等具体操作,对原始的深度学习模型进行进一步的调优,从而满足部署场景下的高性能需求,使其能够高效执行在昇腾AI处理器上。本期就分享几个关于ATC环境搭建问题的典型案例,并给出原因分析及解决方法。

2023-08-21 14:43:38 735

原创 推荐几个不错的昇腾AscendCL学习资源

AscendCL(Ascend Computing Language)是一套用于在昇腾平台上开发深度神经网络推理应用的API库,支持C&C++、Python语言,提供Device管理、Context管理、Stream管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等API,能够实现在昇腾平台上进行深度学习等能力。掌握了AscendCL的编程方法,就意味着可以利用昇腾的算力资源,基于开源算法开发图片分类、目标检测等一系列深度学习推理计算程序。常有同学留言问我,

2023-08-09 10:42:02 540

原创 AscendCL应用编译&运行问题案例

AscendCL(Ascend Computing Language)是一套用于在昇腾平台上开发深度神经网络推理应用的C语言API库,该API库中提供运行资源管理、内存管理等基础API。本期就分享几个关于编译、运行AscendCL应用程序的典型问题案例,并给出原因分析及解决方法。

2023-07-24 20:28:03 1197

原创 Ascend C sqrt算子实战

编写一个Ascend C的sqrt算子,并通过内核调用方式在cpu和npu模式下进行验证。

2023-07-20 17:11:49 375

原创 Ascend C背后的魔法:深度理解多核并行/流水计算/dobule buffer技术

本文试图对Ascend C背后的多核并行,流水计算、dobule buffer编程技术进行摸索和理解,揭示是什么样的技术让用户编写的简单代码可以先实现上述神奇的功能,从而实现高性能算子。

2023-07-20 16:47:02 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除