Huatee-CSDN博客

原创【昇腾】MindIE Benchmark精度和性能测试常用方法

起mindiesrvice服务前，设置日志环境变量。

2025-06-28 10:10:10 671

原创 MindIE Lookahead并行解码调优指导

lookaheadDecoding 利用雅可比（Jacobi）迭代法打破自回归解码中的顺序依赖性，将历史输出的结果存到一个ngram的池子里。设计了lookahead branch和verification branch两个并行的分支，通过特殊的attention mask将这两个分支的计算合在一步里。通过lookahead branch的不断迭代，获取候选token，通过verification branch进行验证，可一次验证多个。代码详细实现逻辑可参考下一章节。

2025-06-28 09:54:30 530

原创【昇腾】msserviceprofiler 工具实现服务化profiling采集

msserviceprofiler 是一款基于昇腾平台，支持MindIE Service框架和vLLM框架的服务化调优工具。其性能采集与数据解析能力已嵌入昇腾CANN工具包，支持MindStudio Insight、Chrome Tracing、Grafana多个平台数据可视化。目前，扩展能力和已在本仓库开源。

2025-06-28 09:01:03 395

原创 A8W4量化方案，Atlas 800I A2 单机部署满血DeepSeek V3

下载MindIE镜像：2.0.RC1.B120-800I-A2-py3.11-openeuler24.03-lts-aarch64。Atlas 800I A2 单卡64GB显存，服务器内存1.5T以上。生成DeepSeek-R1模型 w4a8 混合量化权重。量化后的权重配置文件，修改数据类型为float16。量化开始前，需要对权重文件夹里的部分文件做处理。下载msit量化工具msmodelslim，如有需要，可使用已量化后的开源权重。8卡量化时间约y5小时。

2025-06-18 08:33:15 686

原创昇腾NPU传统小模型基于Triton服务化部署方案

准备一个基础docker镜像，比如内置CANN，Torch NPU的MindIE镜像：https://cmc.rnd.huawei.com/cmcversion/index/releaseView?镜像加载和启动可以参考：https://wiki.huawei.com/domains/12174/wiki/142827/WIKI202403213163463。

2025-06-18 08:30:16 1069 4

原创【无标题】基于昇腾Atlas 300V Pro加速卡训练Yolov3

模型链接：open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark(https://github.com/open-mmlab/mmdetection/tree/main)source usr/local/Ascend/ascend-toolkit/set_env.sh # 激活环境。命令脚本路径为：mmdetection-main/configs/yolo/xxx.py。python tools/train [命令脚本]

2025-06-18 08:28:12 538

原创昇腾虚拟化（算力切分）使用说明

特性说明通过NPU虚拟化是将物理机或虚拟机配置的NPU（昇腾AI处理器）切分成若干份vNPU（虚拟NPU）挂载到容器中，支持多用户共同使用一个NPU，提高资源利用率。使用说明和相关约束详见链接。

2025-04-19 15:26:11 3041

原创模型保护场景，基于MindIE部署大模型推理

通常情况下，MindIE从配置文件获取模型权重文件的路径，并加载磁盘上的权重文件。当模型厂家落盘的权重文件是加密时，则MindIE需要支持从内存加载已解密的权重，包括基础权重和LoRA权重。同时解密脚本中含有针对权重文件的解密方法接口，用户可以传入加密权重文件路径将加密权重进行解密。再次说明，针对权重文件的具体解密算法，用户根据选择加密算法实现DecryptTools类中的 decrypt方法。通常，加密阶段一般在客户的开发环境生成加密权重，在运行环境部署加密后的权重。

2025-04-19 11:03:38 2323

原创昇腾推理加速之AIPP

AIPP（Artificial Intelligence Pre-Processing）人工智能预处理，在NPU的AI Core上完成数据预处理，包括改变图像尺寸、色域转换（转换图像格式）、减均值/乘系数（改变图像像素）等功能。针对CV类模型，如果模型的输入数据是图片，且第一个计算节点为Conv 类型，可以把归一化的操作移动到AIPP，使用昇腾NPU提升端到端推理性能。

2025-01-15 15:31:00 1030

原创【昇腾】常用训练框架导出ONNX，（高能）大于2GB的模型如何导出ONNX

虽然大模型兴起后，各种大模型加速方案兴起，但还是有很多小规模（2B以下）的模型基于ONNX方案，特别是传统CV、语音、NLP等场景，也包括Transformer结构的小规模参数模型。基于PyTorch、MindSpore和TensorFlow等框架将模型训练完成后，将模型转成ONNX，部署在中心或者边缘AI产品上。下面就讲下各训练框架训练好的模型如何保存为ONNX文件。由于受protobuf限制，通常只能保存小于2GB的ONNX模型文件。如何解决这个问题呢，今天给出一个方法。

2025-01-06 20:48:09 1975 1

Huatee的专栏