- 博客(1477)
- 收藏
- 关注
原创 昇思大模型转换工具 Caffe 框架
摘要:华为昇思MindSpore提供完整的Caffe模型转换工具链,可将.prototxt结构文件和.caffemodel权重文件一键转换为MindSpore支持的.mindir/.ms格式,实现模型的无损迁移。该工具基于算子映射、权重解析和图结构重构三大核心能力,支持95%以上常用Caffe算子,转换后模型推理性能提升10%-30%。文章详细介绍了转换原理、环境配置、Python接口和命令行两种转换方式,以及转换后的验证方法和优化建议,帮助用户实现Caffe模型向MindSpore生态的高效迁移。
2026-05-29 16:22:46
34
原创 昇思大模型 msModelSlim 量化工具:提高推理速度
msModelSlim是昇腾MindStudio生态下的大模型压缩加速工具,通过低比特量化(INT8/INT4)和精度补偿算法,在精度损失可控(INT8<1%,INT4<2%)的情况下显著提升推理速度(W8A8提升1.8-2.5倍,W4A8提升3-4倍)并降低显存占用(W8A8减少50%,W4A8减少75%)。该工具支持多种量化算法和灵活配置,适配主流大模型架构,提供从量化到部署的全流程解决方案,深度优化昇腾NPU硬件性能,是大模型高效部署的核心工具。
2026-05-29 16:20:49
33
原创 MindSpeed 大模型预训练:加速套件
摘要: 华为昇腾生态推出MindSpeed大模型预训练加速套件,包含MindSpeed-LLM(语言模型训练)、MindSpeed-MM(多模态训练)及底层加速库MindSpeed-Core。该套件通过并行优化、内存管理、算子加速和通信优化四大核心技术,显著提升训练效率:预训练吞吐量提高30%-50%,内存占用降低30%以上,支持百亿至万亿级模型。其核心架构兼容主流模型(如LLaMA、Qwen),集成混合并行策略(TP/PP/FSDP)、FlashAttention等加速模块,并提供一键式分布式训练接口。实
2026-05-29 16:17:01
44
原创 昇思 Triton 算子开发基础:深度性能优化
摘要:昇思Triton-Ascend是针对昇腾NPU的高性能算子开发框架,通过Python语法实现接近CANN的执行效率,平衡开发便捷性与硬件性能。其优化关键在于适配NPU架构特性,从内存访问(对齐分块/连续访存/存算并行)、并行调度(匹配AI Core数量)、指令优化(强制16倍数触发Cube单元)及算子融合(减少全局内存读写)四大维度突破瓶颈。实践表明,优化后基础算子提速2-3倍,矩阵计算加速4-6倍,融合算子提升5-7倍。核心方法论为“内存优先、对齐核心、并行匹配、融合加速”,结合AutoTune自动
2026-05-29 16:15:05
29
原创 昇思大模型训练:多模态技术
昇思(MindSpore)多模态大模型训练方案基于MindSpore Transformers和MindSpeed MM套件,实现了文本、图像、音频、视频的跨模态融合与联合建模。方案采用双编码器+融合解码器架构,通过对比学习和交叉注意力机制解决模态对齐难题,支持数据/张量/流水线并行等分布式训练方式,在昇腾910集群上实现30%~50%的训练效率提升。关键技术包括:ViT/CLIP视觉编码、BERT/Llama文本编码、FlashAttention长序列优化、混合精度训练等,提供从数据预处理到推理部署的全流
2026-05-29 16:12:12
32
原创 昇腾 NPU 计算精度说明及精度调优方法
昇腾NPU精度调优指南:基于达芬奇架构的FP32/FP16/BF16/INT8多精度计算优化 摘要:本文针对昇腾NPU(910/310系列)在深度学习训练和推理中的精度问题,系统解析了达芬奇架构下的多精度计算特性(FP32/FP16/BF16/INT8)及误差来源,包括硬件浮点特性差异、算子实现偏差和混合精度策略缺陷。提出了五大调优方法:1)O2级自动混合精度+动态Loss Scale训练策略;2)敏感层(LayerNorm等)的FP32强制保护;3)确定性计算环境配置;4)算子精度模式控制与融合优化;5)
2026-05-29 16:10:09
94
原创 昇腾训练框架与真实硬件部署环境的性能问题及优化
昇腾训练框架在NPU硬件(910/310系列)部署时面临四大性能瓶颈:算力利用率低(AI Core空闲率高)、内存瓶颈、通信拥塞和算子适配差。这些问题导致训练效率低下,吞吐量远低于理论峰值。优化方案包括:1)采用模型下沉和CPU绑核提升调度效率;2)通过混合精度和异构存储解决内存问题;3)实施通信融合与梯度压缩降低多卡延迟;4)使用AscendC开发硬件优化算子。实践表明,优化后算力利用率提升至88%,训练速度提高40%,通信耗时占比从40%降至15%。这些措施有效释放了昇腾硬件的AI算力潜力,为国产化AI
2026-05-29 16:06:59
114
原创 昇思大模型预训练通用知识
昇思大模型预训练是通用知识习得的核心环节,通过自监督学习在海量数据中构建语言与世界知识底座,依托 MindSpore 的多维并行与昇腾 NPU 的硬件加速,实现高效、稳定的大模型训练。
2026-05-29 16:01:09
68
原创 昇腾 LLM Prompt 提示工程介绍
摘要:昇腾LLM Prompt提示工程是基于华为昇腾AI芯片与MindSpore框架的大模型优化技术,通过零样本/少样本提示、思维链推理(CoT)、模板化封装和软提示调优四大核心技术,无需微调即可显著提升大模型输出质量。该技术适配对话、推理、创作等全场景应用,具有硬件深度优化(推理时延降低80%)、全链路工具支持(内置PromptTemplate等组件)和国产化生态兼容(支持LLaMA-2等主流模型)三大优势。通过MindSpore代码示例展示了从基础配置到进阶软提示调优的实现路径,为国产大模型高效落地提供
2026-05-29 11:40:38
133
原创 昇思 MindSpore:如何灵活表达深度学习模型
昇思MindSpore通过nn.Cell模块化设计和construct()自由前向表达实现深度学习模型的灵活构建,支持动态图调试与静态图加速无缝切换。其核心特性包括:1)所有组件继承nn.Cell,可嵌套复用;2)construct()内支持Python原生语法(分支/循环/动态路由);3)动静统一,自动适配NPU加速;4)内置Transformer等复杂结构表达模板。开发者可像搭积木一样组合网络,无需手动处理自动微分与并行化,从简单MLP到千亿参数大模型均能高效实现,代码简洁且性能优化。
2026-05-29 11:38:08
188
原创 MindSpore Transformers 断点续训功能原理
摘要: MindSpore Transformers(MindFormers)的断点续训功能通过Checkpoint 2.0机制实现全状态保存(模型参数、优化器状态、学习率调度、数据迭代位置等),确保训练中断后精准恢复进度,避免算力浪费。该功能支持单机/分布式训练、扩缩容及增量续训场景,核心原理包括全状态快照保存与精准恢复逻辑,依赖异步保存、增量更新等技术提升效率。配置参数(如resume_training、load_checkpoint)可灵活控制续训行为,代码实现通过Trainer接口自动加载快照,适用
2026-05-29 11:32:11
321
原创 MindSpore Transformers LLM 数据预处理:MindDataset
摘要:MindDataset是MindSpore Transformers专为昇腾NPU和鲲鹏架构优化的高性能数据加载引擎,显著提升大语言模型(LLM)训练效率。其核心特性包括:支持多进程并行加载和内存映射,吞吐量比PyTorch DataLoader提升40%以上;内置指令数据格式化、Tokenizer向量化、序列打包、动态批处理等LLM专用功能;完整覆盖从原始数据加载到NPU输送的预处理全流程。该组件通过流水线架构实现TB级数据无感加载,原生支持分布式训练,在Qwen等主流模型微调中展现出色性能,是国产
2026-05-29 11:27:10
184
原创 MindSpeed RL SFT 微调
摘要: MindSpeed RL是昇腾针对大语言模型强化学习的高效训练框架,其中监督微调(SFT)作为RLHF的前置阶段,通过指令数据微调预训练模型,使其具备指令理解与响应能力,为后续强化学习提供高质量初始模型。该框架支持昇腾NPU原生加速,优化分布式训练(数据/张量/流水线并行),兼容Llama2、Qwen等主流模型,显著提升训练效率(较GPU提速30%-50%)。其技术流程涵盖数据预处理、权重转换、混合精度微调及模型验证,实现从预训练到RLHF的全链路对齐,适用于对话机器人、代码生成等场景,助力企业构建
2026-05-29 11:24:51
212
原创 昇腾 + PyTorch 模型迁移
昇腾+PyTorch模型迁移技术摘要 该技术通过Ascend PyTorch适配层(Torch NPU)实现PyTorch模型向昇腾NPU芯片的高效迁移,仅需替换设备代码(如cuda→npu)即可利用硬件加速,显著降低国产化部署成本。支持ResNet、YOLO、BERT等主流模型的训练/推理全流程,兼容昇腾310/410芯片及开源操作系统。核心步骤包括环境配置(CANN工具链+torch_npu插件)、设备指定(torch.device("npu"))及数据迁移(.to(device))
2026-05-29 11:21:49
287
1
原创 CATLASS 算子开发:AICore 抽象硬件架构
摘要: CATLASS是昇腾面向GEMM算子的高性能模板库,通过五层抽象架构(Device→Kernel→Block→Tile→Basic)映射AICore硬件,实现计算与存储的极致优化。其核心优势包括:1)硬件感知设计,适配L0/L1缓存与Cube单元;2)自动化双缓冲流水线,掩盖数据搬运延迟;3)模板元编程零运行时开销,性能接近手写汇编;4)分层解耦,开发者通过组合模板快速构建算子。CATLASS将AICore的异构架构(Cube/Vector单元、分级缓存、异步MTE)封装为可复用组件,显著降低开发门
2026-05-29 11:18:54
293
原创 CATLASS 算子开发:AICore 抽象硬件架构
CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU上矩阵乘、卷积等算子的开发门槛,同时保证极致性能,适用于大模型核心算子的高效部署。
2026-05-22 11:14:38
152
原创 昇思 MindSpore 降低模型存储空间
摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至1.6GB,显著降低存储和部署成本。该方案已应用于Llama等主流模型,推动大模型落地应用。
2026-05-22 11:12:38
135
原创 MindSpore Transformers 推理任务快速上手
MindSpore Transformers(MindFormers)是昇思生态的大模型开发套件,支持文本生成、图像分类等任务,适配多种硬件。其核心优势包括一键加载预训练模型、KV缓存加速和流式输出。环境配置简单,支持静态图模式和内存优化。单卡推理示例展示了文本生成任务的完整流程,支持流式输出和参数调优。通过KV缓存、静态图模式和混合精度等技术实现推理优化。多卡推理支持模型并行和自动权重切分,可部署7B/13B等大模型。该方案已应用于智能客服、内容创作等场景,提供高效易用的大模型推理解决方案。
2026-05-22 11:06:53
93
原创 昇思 ONNX 迁移流程:双向转换
昇思 MindSpore 对 ONNX 提供双向迁移能力:既支持将 MindSpore 模型导出为 ONNX 格式用于跨框架部署,也支持将第三方 ONNX 模型(如 PyTorch/TensorFlow)迁移至 MindSpore,依托MindConverter、export 接口、ONNX Runtime 校验构建全链路工具链,保障转换精度与性能,是大模型跨框架迁移、昇腾部署的核心流程。
2026-05-22 11:03:03
336
原创 MindSpore Transformers 训练在线监控日志效果
MindSpore Transformers(MindFormers)提供全链路训练监控系统,具备实时日志、可视化看板、指标采集等五大功能,可监控loss、学习率、吞吐量、NPU利用率等核心指标。系统支持控制台彩色日志输出和MindInsight可视化分析,能快速定位训练不收敛、显存溢出等问题。开发者只需简单配置即可实现零代码侵入的监控,支持分布式训练和多维度指标追踪,大幅提升大模型训练效率和稳定性。该系统特别适合LLM微调和预训练场景,通过实时数据反馈帮助开发者优化训练过程。
2026-05-22 10:50:22
284
原创 昇腾 Flux 模型 GRPO 迁移实践
本文介绍了Flux高性能文生图模型结合GRPO强化学习在昇腾NPU平台的迁移方案。针对算子不兼容、数据类型限制、显存瓶颈等核心挑战,提出三层适配架构和四大优化策略,包括算子重写、精度转换、显存优化和通信适配。通过DanceGRPO框架实现NPU全链路训练,性能达GPU的90%以上,奖励值误差小于0.02%。实验表明,该方案在生成质量、美学评分和显存占用等方面表现优异,为多模态生成强化学习提供了国产算力落地方案,验证了昇腾平台在该领域的可行性。
2026-05-22 10:46:22
272
原创 MindSpore Transformers:规避传统格式风险的安全实践
摘要:传统深度学习模型格式(如PyTorch的.pt/.pth)存在恶意代码注入、数据篡改、加载低效和跨框架兼容性差等风险。MindSpore Transformers通过原生支持Safetensors安全格式,提供四大安全增强机制:代码执行隔离、端到端校验、按需懒加载和跨框架无感化。该方案能完全消除恶意代码风险,提升3-10倍加载速度,降低50%内存占用,并实现无缝跨框架互通。开发者只需指定checkpoint_format="safetensors"即可一键启用安全能力,为AI生态提
2026-05-22 10:42:58
320
原创 昇思 MindSpore 加速库层兼容
摘要:MindSpore加速库层兼容核心通过统一适配接口和分层桥接架构,实现与MindSpeed、CANN、vLLM等昇腾及开源加速库的无缝对接。该方案采用前端接入层、核心适配层、加速库原生层和硬件适配层的分层架构,支持算子自动映射、数据格式转换和分布式并行兼容等关键技术,使大模型在昇腾NPU上的迁移成本降低90%以上。兼容内容涵盖MindSpeed训练加速、CANN算子库和vLLM推理加速三大场景,通过代码实践验证了单卡训练和分布式训练的兼容性。方案还提供精度对齐、性能调优和问题解决机制,最终实现零代码或
2026-05-22 10:40:03
404
原创 MindSpore Transformers 训练任务快速上手
摘要:MindSpore Transformers(MindFormers)是昇思MindSpore生态的大模型训练套件,集成BERT、GPT等主流Transformer模型,提供预训练/微调、分布式并行等能力。其核心优势包括:1)标准化训练流程(环境准备、数据处理、配置定义等5步);2)开箱即用的分布式训练与混合精度加速;3)支持LoRA轻量化微调;4)全链路可视化监控。通过示例展示了Qwen-7B模型的单机微调过程,包含环境安装、数据处理、配置训练和启动监控等步骤。该工具显著降低了大模型训练门槛,使开发
2026-05-22 10:33:54
426
原创 昇思大模型预训练数据来源
摘要:昇思MindSpore大模型的预训练数据以中文为核心,采用多源异构融合策略,包含开源数据集、互联网网页、电子书及领域数据,经分布式清洗去重后形成百亿至千亿级Token的高质量语料。数据处理流程包括格式归一化、多级去重、质量过滤等步骤,并转换为MindRecord格式支持高效训练。代码示例展示了数据加载与预处理的关键步骤,包括分词、截断和格式转换。整个流程严格遵循数据合规与隐私保护原则,确保模型训练合法合规,显著提升中文理解与推理能力。
2026-05-19 15:25:55
157
原创 昇思思维链分步推理
摘要:思维链(CoT)技术通过分步推理显著提升大模型在复杂任务中的准确率。昇思(MindSpore)框架原生支持CoT推理,结合鲲鹏ARM架构与昇腾NPU算力,实现高性能、可解释的推理流程。相比传统直接输出结果的方式,CoT通过结构化提示词引导模型分步推导,使推理过程可追溯。昇思采用提示词工程、动态序列扩展等技术,支持主流大模型,在鲲鹏平台上性能提升40%以上。该技术特别适用于数学计算、故障诊断等需要逻辑推理的场景,通过分步验证降低错误率,推动大模型从通用对话向专业决策演进。
2026-05-19 15:20:46
329
原创 昇思(MindSpore)Web 与 API 推理云托管模型服务技术
摘要:华为昇思(MindSpore)框架支持鲲鹏ARM架构与昇腾NPU异构算力,提供训练推理一体化解决方案。其Web与API推理云托管服务通过标准化RESTful接口实现AI模型远程调用,支持高并发推理。基于FastAPI+昇思的代码实践展示了图像分类模型在鲲鹏服务器上的部署流程,具有多核优化、静态图加速等特性,性能提升30%以上。该方案适用于政务、金融等信创云场景,实现AI模型的高效工程化部署。
2026-05-19 15:18:17
361
原创 昇思大模型垂域模型
昇思MindSpore垂域模型采用"通用基座+行业微调+技术增强"架构,基于Llama/GLM等大模型,通过LoRA轻量化微调和RAG检索增强技术,显著提升行业专业性。该方案训练效率提升50%、推理成本降低40%,已在医疗、金融、电力、法律等领域落地500+案例,实现91%的医疗分诊准确率、98%的金融风控识别率等突破性表现。MindSpore Transformers提供从数据处理到部署的全链路工具链,支持开发者快速构建行业专用AI模型,推动国产AI技术在各行业的深度应用。
2026-05-19 15:14:28
167
原创 昇腾大模型专家并行技术
昇腾专家并行(EP)是针对MoE大模型的核心并行技术,通过专家切分、数据分发和结果聚合三大机制,有效解决了万亿级MoE模型面临的显存不足、通信延迟和负载不均问题。该技术采用"1卡1专家"模式降低显存占用70%,结合AllToAll通信优化和动态负载均衡(EPLB),实现单卡吞吐提升4倍、通信开销降低65%。基于CANN+HCCL的软硬件协同,EP支持PyTorch/MindSpore开发框架,在千亿参数模型训练中达到0.9+的线性加速比,推理场景下实现429TPS的高吞吐。未来随着昇腾超
2026-05-19 15:12:39
259
原创 MindSpore 大模型套件的使用
摘要:MindSpore大模型套件提供全栈式解决方案,支持千亿/万亿参数大模型的研发、训练与部署。核心功能包括多维分布式并行训练(数据/模型/流水线/优化器并行)、主流大模型组件库(Transformer/LLaMA等)、高性能推理优化(延迟降低50%)及工程化工具链。通过LoRA微调等轻量化方案实现单卡训练,显著降低显存占用。深度适配昇腾NPU集群,训练速度提升30%以上,提供从开发到落地的完整支持,覆盖NLP、CV等多模态场景,大幅降低大模型应用门槛。(149字)
2026-05-15 16:50:18
34
原创 昇腾平台上的异构编程
昇腾平台采用CPU+NPU异构架构,通过异构编程实现高性能计算与AI推理加速。CPU负责流程调度和逻辑控制,NPU专注并行计算,二者协同工作可提升80%以上算力利用率。平台提供Ascend C、PyTorch等编程接口,支持端云协同和大模型推理等场景。异构编程通过硬件解耦、内存共享等机制,实现10-100倍性能提升,同时降低开发门槛。示例代码展示了CPU初始化、NPU计算加速、结果回传的完整流程,体现了国产化异构计算的优势。该技术已成为AI工程化和高性能应用开发的关键技能。
2026-05-15 16:40:30
52
原创 昇思模型量化压缩精度调优
摘要:昇思MindSpore通过Golden Stick量化工具链提供AI模型轻量化解决方案,支持将FP32/FP16模型压缩为INT8/INT4格式,显著减少模型体积和显存占用。针对传统量化导致的精度下降问题,昇思提出分层异构量化、关键层保护、数据校准优化等五大策略,实现模型压缩率75%以上、推理速度提升50%的同时,将精度损耗控制在1%以内。该方案适配CV、NLP及多模态模型,支持昇腾NPU硬件加速,为国产化AI部署提供高效轻量化技术支持。
2026-05-15 16:35:16
49
原创 昇思 MindSpore PyTorch 迁移流程
本文介绍了昇思MindSpore为PyTorch用户提供的低代码迁移方案,通过API语义对齐、自动转换工具和硬件加速支持,实现高效国产化迁移。方案包含环境配置、语法适配、模型转换等全流程,仅需少量代码修改即可在昇腾NPU平台运行,保持与PyTorch高度兼容的同时获得性能提升。实战示例展示了从导入替换到训练部署的完整迁移过程,验证了该方案在保持精度前提下可提升50%+训练速度,支持动态图调试和静态图加速双模式,是AI业务国产化迁移的理想选择。
2026-05-15 16:28:53
153
原创 昇腾 CBLAS 算子的加载与执行
昇腾CBLAS是基于昇腾AI处理器优化的基础线性代数运算库,兼容标准CBLAS接口,专为加速矩阵乘法、向量运算等HPC和AI核心算子设计。其执行流程包括环境初始化、内存申请、数据拷贝、算子执行和结果回读五个步骤,通过NPU硬件加速可提升性能10-30倍。该库广泛应用于科学计算、AI推理等场景,支持无缝迁移现有业务代码。示例代码展示了从初始化到矩阵乘法的完整流程,体现了昇腾CBLAS的高效性和易用性,是昇腾平台高性能计算的核心组件。
2026-05-15 10:52:05
88
原创 昇思大模型计算效率优化技术
摘要: 华为昇思MindSpore通过全链路优化体系提升大模型训练与推理效率。关键技术包括:1)算子融合与编译优化,减少调度开销;2)通信优化与6D并行策略,降低跨卡通信时延10%以上;3)动态内存管理与重计算技术,显存占用减少40%;4)推理阶段采用vLLM架构与AMLA算法,吞吐提升50%。实测显示,Llama-7B训练吞吐达240 tokens/s(提升2.3倍),67B参数模型推理时延<100ms。该框架通过算子、通信、并行与内存四维协同,实现高效计算引擎,显著降低大模型优化门槛。
2026-05-15 10:50:11
106
原创 昇思 MindSpore 数据准备
摘要:昇思MindSpore提供高性能数据准备体系,支持文本/图像/语音等全场景处理,深度适配昇腾NPU。其标准化五步流程包括数据加载、采样、预处理、批处理和异构调度,通过C++引擎实现5-10倍性能提升。典型代码示例展示了从文本加载、分词到批处理的完整流程,支持LLaMA等大模型训练。优化建议包括多线程处理、固定序列长度和使用MindRecord格式等,可显著提升数据处理效率,消除CPU与NPU间的性能瓶颈。(149字)
2026-05-15 10:43:09
172
原创 昇思大模型可扩展性及 OrangePi Alpro 实践
昇思(MindSpore)轻量化大模型推理引擎具备多维度可扩展性,支持从服务器到边缘设备(如OrangePi Alpro)的全栈部署。其核心优势在于:1)硬件平台扩展性,自动适配鲲鹏ARM64等架构;2)任务场景扩展性,单模型支持问答、分类等多任务;3)模型规模扩展性,支持动态量化调整;4)部署形态扩展性,兼容本地推理、API等多种形式。通过示例代码展示了在OrangePi Alpro上实现硬件加速、多任务切换和视觉扩展的能力,显著降低边缘AI部署成本,满足工业、家居等多样化场景需求。
2026-05-15 10:41:55
291
原创 昇思大模型提示学习的多样性及 OrangePi Alpro 部署实践
昇思MindSpore框架结合OrangePi Alpro鲲鹏ARM64开发板,实现了轻量化大模型在边缘设备的提示学习部署。通过指令、格式、少样本和推理控制四大类多样化设计,无需微调即可适配问答、分类、摘要等多场景任务。利用鲲鹏NEON硬件加速和INT8量化技术,显著降低内存占用50%,满足边缘设备低功耗、高实时性需求。代码示例展示了如何通过模板化提示设计实现任务自由切换,充分发挥单一大模型的多任务处理能力,为智能家居、工业等边缘场景提供低成本AI解决方案。
2026-05-15 10:37:53
311
原创 昇思 Web 与 API 推理服务器部署
本文介绍了在OrangePi Alpro开发板上部署昇思(MindSpore Lite)Web+API推理服务器的方案。该方案基于FastAPI框架构建轻量化服务,提供HTTP接口和可视化网页界面,支持图片上传、实时推理和结果返回。系统深度适配鲲鹏ARM64架构,开启NEON加速,内存占用低于100MB,适合边缘计算场景。部署流程包括安装依赖库、加载量化模型、封装推理函数和启动服务。通过浏览器或API调用即可实现远程AI推理,为智能家居、工业检测等边缘AI应用提供高效解决方案。
2026-05-15 10:35:36
178
原创 昇思大模型从数据看 CPU 计算
昇思大模型中的CPU计算主要承担四大核心任务:数据全流程处理(加载、分词、批处理等)、计算图调度与执行、内存资源管理以及模型控制逻辑执行。通过纯CPU运行示例代码展示了从数据加载到模型微调和推理的全流程,包括环境配置、数据生成、模型加载、LoRA微调及推理输出。该流程证明CPU作为基础计算单元,在昇思框架中能独立完成轻量化大模型任务,通过静态图优化和多线程处理提升效率,实现无专用加速芯片的大模型运行。
2026-05-15 10:32:21
203
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅