- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 MindIE Lookahead并行解码调优指导
lookaheadDecoding 利用雅可比(Jacobi)迭代法打破自回归解码中的顺序依赖性,将历史输出的结果存到一个ngram的池子里。设计了lookahead branch和verification branch两个并行的分支,通过特殊的attention mask将这两个分支的计算合在一步里。通过lookahead branch的不断迭代,获取候选token,通过verification branch进行验证,可一次验证多个。代码详细实现逻辑可参考下一章节。
2025-06-28 09:54:30
530
原创 【昇腾】msserviceprofiler 工具实现服务化profiling采集
msserviceprofiler 是一款基于昇腾平台,支持MindIE Service框架和vLLM框架的服务化调优工具。其性能采集与数据解析能力已嵌入昇腾CANN工具包,支持MindStudio Insight、Chrome Tracing、Grafana多个平台数据可视化。目前,扩展能力和已在本仓库开源。
2025-06-28 09:01:03
395
原创 A8W4量化方案,Atlas 800I A2 单机部署满血DeepSeek V3
下载MindIE镜像:2.0.RC1.B120-800I-A2-py3.11-openeuler24.03-lts-aarch64。Atlas 800I A2 单卡64GB显存,服务器内存1.5T以上。生成DeepSeek-R1模型 w4a8 混合量化权重。量化后的权重配置文件,修改数据类型为float16。量化开始前,需要对权重文件夹里的部分文件做处理。下载msit量化工具msmodelslim,如有需要,可使用已量化后的开源权重。8卡量化时间约y5小时。
2025-06-18 08:33:15
686
原创 昇腾NPU传统小模型基于Triton服务化部署方案
准备一个基础docker镜像,比如内置CANN,Torch NPU的MindIE镜像:https://cmc.rnd.huawei.com/cmcversion/index/releaseView?镜像加载和启动可以参考:https://wiki.huawei.com/domains/12174/wiki/142827/WIKI202403213163463。
2025-06-18 08:30:16
1069
4
原创 【无标题】基于昇腾Atlas 300V Pro加速卡训练Yolov3
模型链接:open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark(https://github.com/open-mmlab/mmdetection/tree/main)source usr/local/Ascend/ascend-toolkit/set_env.sh # 激活环境。命令脚本路径为:mmdetection-main/configs/yolo/xxx.py。python tools/train [命令脚本]
2025-06-18 08:28:12
538
原创 昇腾虚拟化(算力切分)使用说明
特性说明通过NPU虚拟化是将物理机或虚拟机配置的NPU(昇腾AI处理器)切分成若干份vNPU(虚拟NPU)挂载到容器中,支持多用户共同使用一个NPU,提高资源利用率。使用说明和相关约束详见链接。
2025-04-19 15:26:11
3041
原创 模型保护场景,基于MindIE部署大模型推理
通常情况下,MindIE从配置文件获取模型权重文件的路径,并加载磁盘上的权重文件。当模型厂家落盘的权重文件是加密时,则MindIE需要支持从内存加载已解密的权重,包括基础权重和LoRA权重。同时解密脚本中含有针对权重文件的解密方法接口,用户可以传入加密权重文件路径将加密权重进行解密。再次说明,针对权重文件的具体解密算法,用户根据选择加密算法实现DecryptTools类中的 decrypt方法。通常,加密阶段一般在客户的开发环境生成加密权重,在运行环境部署加密后的权重。
2025-04-19 11:03:38
2323
原创 昇腾推理加速之AIPP
AIPP(Artificial Intelligence Pre-Processing)人工智能预处理,在NPU的AI Core上完成数据预处理,包括改变图像尺寸、色域转换(转换图像格式)、减均值/乘系数(改变图像像素)等功能。针对CV类模型,如果模型的输入数据是图片,且第一个计算节点为Conv 类型,可以把归一化的操作移动到AIPP,使用昇腾NPU提升端到端推理性能。
2025-01-15 15:31:00
1030
原创 【昇腾】常用训练框架导出ONNX,(高能)大于2GB的模型如何导出ONNX
虽然大模型兴起后,各种大模型加速方案兴起,但还是有很多小规模(2B以下)的模型基于ONNX方案,特别是传统CV、语音、NLP等场景,也包括Transformer结构的小规模参数模型。基于PyTorch、MindSpore和TensorFlow等框架将模型训练完成后,将模型转成ONNX,部署在中心或者边缘AI产品上。下面就讲下各训练框架训练好的模型如何保存为ONNX文件。由于受protobuf限制,通常只能保存小于2GB的ONNX模型文件。如何解决这个问题呢,今天给出一个方法。
2025-01-06 20:48:09
1975
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅