- 博客(7)
- 收藏
- 关注
原创 基于昇腾的性能通用定位指南-03 性能工具的使用
cluster_analyse:集群场景下,如千卡、万卡等无法直接分析全部数据的场景,可通过此工具来提取集群迭代耗时和通信数据, 快速定位慢卡、慢节点以及慢链路问题。支持比较GPU与NPU之间、NPU与NPU之间的单卡性能差异,更推荐在GPU迁移NPU性能劣化、性能抖动等有基线比对数据的场景使用。AI框架Profiler接口封装了msprof命令行工具,进一步增加了对AI框架层性能数据的采集与解析,是最常用的采集方式。说明:仅推理场景涉及服务化调优,具体服务化调优工具的使用请参见。
2025-09-20 10:02:33
574
原创 基于昇腾的性能通用定位指南-02整体定位流程
性能优化总体思路围绕展开,具体步骤如下。说明:性能优化的前提是不造成精度劣化,特殊情况下,需对齐精度劣化是否能接受。
2025-09-20 09:58:28
1894
原创 基于昇腾的性能通用定位指南-01概述
更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架,涵盖性能数据采集、算子层面优化、调度策略调整、通信机制改善以及模型编译下发等多个环节。
2025-09-20 09:52:43
301
原创 揭开算子精度调试黑箱,MindStudio算子工具助力开发效率大幅提升
msSanitizer 与 msDebug 作为 MindStudio 算子工具链的重要能力,分别从 “异常预防” 和 “问题溯源” 两个维度发力,为昇腾 NPU 算子的精度调试提供了系统化解决方案,是提升算子开发质量与效率的关键利器,目前该工具已正式发布,更多功能请参考官方资料。
2025-08-25 10:51:47
1957
原创 MindStudio全新支持训练数据在线监测,大幅提升训练效率
在AI计算领域,随着模型规模不断扩大,如何突破训练性能瓶颈已成为开发者面临的关键挑战。特别是在大规模分布式训练场景下,传统性能监测方案存在明显不足:其一,采用被动式监测策略,往往在性能抖动发生后才能触发数据采集,导致问题定位存在延迟;其二,面对训练过程中产生的海量性能数据(通常达数百GB量级),传统方案的解析和转储效率低下,进一步延长了问题诊断周期。这些缺陷不仅影响排障效率,更会造成计算资源浪费。面对这些性能调优困境,MindStudio全新推出了msMonitor轻量化在线监测工具,帮助开发者
2025-08-22 09:48:04
997
原创 告别参数泥潭!MindStudio快速锁定大模型推理服务化吞吐最优解
MindStudio服务化自动寻优工具,通过仿真建模,自动搜索推荐最优配置参数,帮助开发者告别繁琐的参数调试流程,有效减少反复分析服务化参数-实测-再分析的试错过程,大幅提升服务化调优效率。目前该工具已正式发布,欢迎广大开发者点击链接下载体验!msserviceprofiler/docs/服务化自动寻优工具.md · Ascend/msit - Gitee.com。
2025-08-21 10:50:03
1675
原创 INT4量化新突破!昇腾MindStudio 量化工具助力DeepSeek R1显存减负75%,精度仅损失<1%
msModelSlim量化工具,为用户提供了多种量化、离群值抑制算法的API接口。同时,msModelSlim也提供一键量化、自动选层的能力,用户无需深入量化细节或反复调试参数,仅需调用简洁接口即可快速完成最优量化配置搜索,降低操作门槛,显著提升开发效率。无论是希望快速部署轻量化模型的工程师,还是追求极致性能的研究者,msModelSlim都能提供专业、高效的量化工具,助力AI应用高效落地,欢迎大家安装体验带来的便捷与高效!
2025-08-20 17:24:35
911
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅