自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1148)
  • 收藏
  • 关注

原创 MindSpore动态图调试与静态图部署的双模式实战​

MindSpore动静态图使用指南:MindSpore采用动态图(PyNative)调试与静态图(Graph)部署相结合的模式。动态图模式便于逐行调试,支持实时打印和Python调试器;静态图模式通过整体编译优化提升性能。开发时建议先用动态图调试,再切换静态图部署,并利用Profiler进行性能分析。需注意控制流在静态图中的特殊处理方式,以及两种模式切换时的兼容性问题。

2025-09-19 10:24:55 183

原创 MindSpore与PyTorch迁移指南:无缝切换到昇腾生态

摘要:本文介绍了从PyTorch迁移到MindSpore框架并利用昇腾(Ascend)NPU生态的完整指南。主要内容包括:1)MindSpore与PyTorch的API对比和优势分析;2)迁移前的环境准备和知识储备;3)详细的代码迁移四步法(API替换、网络构建、权重转换、训练验证);4)常见问题的解决方案(如Dropout参数反向、数据对象差异等);5)实际性能提升案例(ResNet-50训练速度提升147%)。文章提供了从环境搭建到完整代码示例的实用指导,帮助开发者在昇腾硬件上获得更高效的AI训练和推理

2025-09-19 10:22:16 549

原创 昇腾AI在自然语言处理中的突破:MindSpore的应用与优化技巧

昇腾AI生态通过MindSpore框架和Ascend NPU为NLP任务提供了强大的支持。MindSpore 2.0的多维混合自动并行功能和MindNLP库实现了与HuggingFace的无缝兼容,显著提升了文本生成和情感分析等任务的效率。应用案例显示,在Ascend硬件上运行可实现30%以上的推理速度提升。优化技巧包括利用bfloat16精度、自动并行训练和算子优化等,可进一步提升模型性能。昇腾AI正推动NLP在智能客服、内容创作等领域的创新应用。

2025-09-19 10:13:16 376

原创 MindSpore与CANN的协同优化:实现极致性能的深度学习训练与推理

本文探讨了华为MindSpore框架与CANN在昇腾AI处理器上的协同优化技术,通过计算图融合、智能内存管理、高性能算子实现等创新方法,显著提升深度学习性能。研究显示,这种软硬件协同设计使ResNet-50训练速度提升80%,BERT-Large提升110%,并实现30-70%的内存优化。优化策略包括自动图融合、动态形状支持、零内存拷贝等技术,特别在分布式训练和推理场景表现优异。该协同方案为AI计算提供了高效解决方案,展现了华为全栈AI技术的性能优势。

2025-09-19 10:09:30 334

原创 昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型,内附教程4步实现推理!

阿里云发布Qwen3-Next系列大模型,包括80B参数的Thinking和Instruct版本,主打长文本处理与参数效率。该模型通过HybridAttention、High-SparsityMoE等创新技术提升性能,训练成本仅为Qwen3-32B的十分之一。昇思MindSporeAI框架已实现快速支持,提供完整推理部署方案,支持8卡Atlas服务器运行。开发者可通过魔乐社区下载模型(约152GB),使用专属Docker镜像快速体验,并提供详细的服务化部署指南和API调用示例。

2025-09-19 10:01:25 228

原创 RelTR模型论文解读,并基于MindSpore NLP推理复现

RelTR是一种基于Transformer架构的单阶段端到端场景图生成方法,通过引入固定数量的主语/宾语查询和多种注意力机制(CSA、DVA、DEA),直接预测关系三元组。相比传统两阶段方法,RelTR具有参数少、计算复杂度低(O(n))的优势。其创新点包括:1)稀疏三元组预测机制;2)基于IoU的集合预测损失函数;3)利用实体解码结果优化主客体定位。实验在Visual Genome数据集上验证了有效性,MindSpore实现版本已开源。迁移过程中发现了参数加载和计算精度问题,通过在启智平台运行解决了推理异

2025-09-19 09:59:03 443

原创 MindSpore vs. PyTorch:设计理念、优劣势对比与选型指南

PyTorch与MindSpore深度对比:两大AI框架各有千秋 PyTorch以动态计算图著称,支持灵活调试,成为学术界首选(89% ICLR论文使用)。MindSpore采用动静统一架构,兼顾开发灵活性与执行效率。性能方面,MindSpore在昇腾910上展现出50%的吞吐量优势,内存占用降低35%,得益于其自动图优化和混合精度技术。PyTorch在NVIDIA GPU生态更成熟,而MindSpore对华为昇腾芯片深度优化。PyTorch社区资源丰富,适合研究;MindSpore提供端边云协同能力,更匹

2025-09-11 11:34:31 769

原创 MindSpore框架:自动并行与动静结合的创新实现

华为MindSpore框架通过自动并行和动静结合两大创新技术,显著提升AI开发效率。自动并行技术采用多维并行融合和代价模型驱动策略,实现千卡线性度92%-95%,开发周期从数月缩短至数小时。动静结合技术支持动态图调试与静态图部署的无缝切换,使推理性能提升3-5倍。该框架已成功应用于万亿参数大模型训练,资源利用率达85%以上,为AI规模化应用提供新范式。

2025-09-11 11:33:05 868

原创 MindSpore的隐私保护机制:联邦学习与安全计算

摘要:华为MindSpore通过联邦学习和安全计算技术解决AI发展中的数据隐私问题,支持横向/纵向/迁移三种联邦学习模式,集成同态加密、安全多方计算和差分隐私等保护机制。该框架采用分层设计,在医疗、金融等场景实现数据不出域下的联合建模,平衡隐私保护与模型性能。未来将探索区块链融合、自动隐私调节等方向,为构建可信AI生态提供技术支撑。(149字)

2025-09-11 11:31:39 1067

原创 Mindspore的框架如何从别的迁移进来

本文介绍了PyTorch模型迁移到MindSpore的完整流程和工具支持。主要内容包括:1)详细迁移步骤,涵盖环境准备、模型分析、网络搭建、数据处理、训练推理对齐等环节;2)推荐迁移工具集,如MindSporeDevToolkit、TroubleShooter等;3)模型权重转换方法;4)大模型零代码迁移方案;5)常见问题解决方法。迁移过程强调精度对齐和性能优化,建议先使用PYNATIVE模式调试,再切换GRAPH模式加速。文章为开发者提供了从基础迁移到高级支持的完整指导方案。

2025-09-11 11:27:24 271

原创 使用mslite+faiss在香橙派昇腾开发板上实现搜图功能

本文介绍了基于MindSpore Lite和CLIP模型的轻量级图像搜索系统实现方案。系统使用CLIP模型提取图像和文本特征,通过Faiss构建向量索引库,支持文本搜图和图像搜图功能。作者详细说明了在香橙派AI开发板上的部署过程,包括环境配置、模型转换、索引创建和搜索实现。测试使用ImageNet验证集,展示了搜索效果和性能数据,在8T、20T和AI Studio Pro等不同硬件配置下均能实现毫秒级响应。文章还分析了系统优缺点,指出其在英文搜索效果较好但中文支持有限的特点,并提供了性能优化建议和常见问题解

2025-09-11 11:25:24 816

原创 MindSpore 库相关操作的导入指南

本文介绍了使用MindSpore框架进行MNIST手写数字识别的完整流程。首先导入必要的库并下载MNIST数据集,然后定义数据处理函数对图像进行归一化、标准化和批处理。接着构建一个包含全连接层和ReLU激活函数的神经网络模型,实现训练和测试函数,使用交叉熵损失和SGD优化器进行训练。训练结束后保存模型为.ckpt文件,并演示了如何加载已训练模型进行预测。整个过程展示了MindSpore在深度学习任务中的基本使用方法,包括数据预处理、模型构建、训练评估和模型保存加载等关键步骤。

2025-09-11 11:23:34 939

原创 基于昇思MindSpore的AI+艺术创新应用探索

四川美术学院与昇思MindSpore合作开展"AI+艺术"创新项目,聚焦汉字艺术与AI技术的融合。项目基于CycleGAN算法开发了"竹叶体"生成工具"竹·书",实现从AI模型训练到公众交互体验的全链路创新。通过产学合作、艺科协同,项目构建了"技术+创意"跨学科协作机制,并转化为教学案例和工作坊。项目成果已在教学应用、学术传播和公众体验方面取得成效,为AI赋能艺术教育提供了示范样本,同时探索了传统文化数字化创新路径。未来将拓展多

2025-09-11 10:27:22 864

原创 西南交通大学龚勋:AIGC背景下基于昇思MindSpore的川西南纸本经图修复与重塑

本案例基于扩散模型的加噪和去噪特性,利用文生图大模型Stable Diffusion强大的图像生成能力,并结合LoRA、ControlNet和IP-Adapter等技术,提出了一种高效且低参数的纸本经图填色再绘方法,可以将提取到的线稿进行上色,得到最终的数字化图像,有效解决了风格不一致、佛像姿态变形和颜色失真等问题,显著提升了数字化生成任务的效率和精度。突破了传统数字化修复技术的局限性,提出了高质量的线稿提取方法,通过交互为生成最终线稿图提供更大的灵活性和准确性,最大限度地还原经图的结构和细节;

2025-09-11 10:23:38 580

原创 MindSpore的基础使用知识

摘要:MindSpore是华为开源的全场景AI框架,2025年发布2.4LTS版本,支持端边云统一架构和昇腾NPU最优协同。其核心优势包括自动并行、大模型原生支持以及与PyTorch的兼容性,在Llama-70B等模型上相比PyTorch+DeepSpeed提升20%吞吐。新版本提供3行代码实现大模型微调、30%性能提升和50%显存优化,已在金融、运营商等领域落地应用。框架包含动态/静态图切换、5维并行等特性,支持CPU/GPU/NPU异构计算。

2025-09-05 15:10:49 537

原创 MindSpore 架构下的 Prompt Tuning 原理解析

MindSpore框架下的大模型PromptTuning实现方法 摘要:本文探讨了在MindSpore深度学习框架中实现PromptTuning参数高效微调的技术方案。MindSpore的图编译优化和自动并行能力为PromptTuning提供了高效执行环境,支持静态图模式优化和混合精度训练。文章详细介绍了三种典型实现:SoftPromptTuning(输入侧拼接可学习向量)、PrefixTuning(注意力层注入K/V前缀)和P-Tuningv2(轻量提示编码器生成动态提示),并分析了在昇腾平台上的工程优化

2025-09-05 15:08:40 599

原创 MindSpore LLM大模型原理

本文介绍了MindSporeLLM大模型中的注意力机制原理及其变体。注意力机制通过计算query和key的点积相似度,经Softmax归一化处理获得注意力权重,并引入缩放因子稳定训练。自注意力机制关注序列内部元素关联性,用于理解句子逻辑关系。多头注意力机制通过并行计算多组注意力,使模型能同时关注序列的不同方面(如语法、语义等),虽然增加了计算量但显著提升了模型表征能力而不明显增加推理时间。这些机制共同增强了自然语言处理任务的性能。

2025-09-05 15:06:46 245

原创 audio_spectrogram_transformer模型论文解读(基于mindnlp)

《AudioSpectrogramTransformer》论文提出了一种基于Transformer架构的音频分类模型AST。该模型将音频频谱图作为输入,通过自注意力机制捕捉全局依赖关系,创新性地采用ImageNet预训练策略提升性能。在AudioSet、ESC-50和SpeechCommands数据集上,AST分别达到0.485 mAP、95.6%和98.1%准确率,较之前最优模型提升2.3%、1.2%和0.5%。研究验证了跨模态预训练的有效性和Transformer处理音频数据的优势。论文推荐使用Mind

2025-09-05 14:19:49 615

原创 Bark模型论文解读,并基于MindSpore NLP推理复现

本文介绍了Bark文本到音频模型及其支撑论文AudioLM,并比较了PyTorch和MindSporeNLP平台下的性能表现。Bark是由Suno开发的基于transformer的多语音合成模型,支持13种语言和多种音频效果。其核心技术源于AudioLM论文提出的分层音频标记方法,实现了高质量音频生成和长期一致性。实验采用"suno/bark-small"模型,在相同硬件环境下,MindSporeNLP(16.42秒)比PyTorch(18.07秒)具有更低的延迟,但内存占用略高(140

2025-09-05 14:15:18 617

原创 MindSpeed LLM 分析的profiling如何进行模型评估

摘要: MindSpeed LLM Profiling 是一款用于分析大语言模型性能瓶颈的工具,通过量化指标(如算子耗时、内存占用、GPU利用率等)定位训练/推理过程中的效率问题。新手使用步骤:1)安装环境与依赖;2)准备模型和测试数据;3)配置需跟踪的指标(时间、内存、并行等);4)运行性能分析;5)解读报告,针对性优化(如算子替换、量化);6)验证优化效果。建议从单卡推理入手,逐步扩展场景,并参考官方文档确保兼容性。核心价值是将模糊性能问题转化为可量化的优化方向。

2025-08-29 14:47:48 592

原创 基于 MindSpeed-LLM 框架的大模型训练全流程经验分享

MindSpeed-LLM是昇腾生态下专为大语言模型设计的高效训练框架,支持主流模型的分布式预训练和微调。本文详细介绍了从环境搭建到模型微调的全流程实践,包括模型权重转换、数据预处理、并行策略配置等关键步骤,并分享了内存优化和计算加速等实用技巧。该框架通过创新的内存管理和混合并行技术,显著提升训练效率,是国产硬件上部署大模型的理想选择。

2025-08-29 14:46:47 815

原创 pytorch迁移mindspore案例的学习记录

阅读一篇“Non-rigid Point Cloud Registration with Neural Deformation Pyramid”论文,对里面的pytorch框架的代码进行分析,然后讨论如何迁移到mindspore框架。

2025-08-29 14:41:20 657

原创 有关MindSpore的一些基础知识

MindSpore是由华为推出的全场景深度学习框架,具备易开发、高效执行和全场景统一部署三大特点。它以张量为基础数据类型,支持动静统一的编程体验和自动微分机制,并提供自动并行与丰富的模型套件。框架适配多种硬件平台,通过编译优化和动态图调试提升性能,支持"端-边-云"统一部署。在自然语言处理、计算机视觉等领域表现优异,助力AI应用开发与跨学科研究。

2025-08-29 14:28:47 334

原创 MindSpore Quantum 0.11.0 正式发布:性能全面跃升,高效易用,加速前沿量子计算研究

MindSpore Quantum 0.11.0发布两大核心升级:1)推出专用量子化学求解器mqchem,在氢链分子模拟中速度提升百倍;2)为量子启发式算法(QAIA)新增GPU/NPU后端支持,组合优化问题求解效率提升数十倍。新版本显著提升了量子化学计算和组合优化问题的处理能力,支持与OpenFermion无缝衔接,并保持易用性。该框架已实现量子机器学习、量子化学模拟等主流算法的性能突破,为量子计算研究提供高效开发平台。

2025-08-29 14:26:28 676

原创 BiT模型论文解读,并基于MindSpore NLP推理复现

《Big Transfer (BiT): 通用视觉表征学习》提出了一种基于大规模数据集和大型模型的简单预训练方法。该研究通过监督学习在ImageNet-21k和JFT-300M等大数据集上训练ResNet变体,证明了模型规模与数据规模协同扩展的重要性。BiT的创新在于:1)提出标准化迁移学习协议(BiT-HyperRule),无需复杂调参;2)在小样本任务中表现优异;3)去除了不必要的训练技巧。实验表明,BiT在19项视觉任务上的平均准确率达76.3%,在COCO检测任务达到43.8% AP,优于当时主流方

2025-08-29 14:25:04 1016

原创 模型解析性能数据

MindSpore性能分析工具使用指南:安装MindInsight后需修改配置文件中的HOST为本机IP地址,启动服务指定端口和性能数据路径。通过网页可查看迭代轨迹、算子性能、数据准备和Timeline等可视化分析结果,帮助用户定位性能瓶颈并进行优化。详细操作可参考官网文档。

2025-08-22 11:54:34 206

原创 大模型获取性能数据方法

MindSpore提供两种获取性能数据的方式:环境变量配置和修改训练脚本。环境变量方式通过设置MS_PROFILER_OPTIONS参数控制数据收集选项(如内存、通信等)。修改脚本方式更灵活,支持数据下沉和非下沉训练模式。对于非下沉训练,需在代码中初始化Profiler并指定开始/结束的step;对于下沉训练,只需在模型训练前后初始化并分析Profiler。两种方式均可收集AICore指标、内存等性能数据,输出到指定路径进行分析。

2025-08-22 11:52:43 412

原创 数据集处理结果精细对比

文章摘要:本文介绍了数据集处理结果的可视化方法及精细对比流程。通过将增强后的数据转换为可视化格式(如图片)可初步判断数据处理问题。对于精细对比,建议使用TroubleShooter工具保存MindSpore和对标网络的数据为npy文件,并比较其相似度。对比指标包括数据集一致性、归一化参数、混洗逻辑及增强方式等关键参数对齐情况。文中提供了示例代码和对比结果展示,帮助开发者验证数据处理流程的正确性。

2025-08-22 11:50:27 425

原创 网络算法参数和输出对比

摘要:本文介绍了神经网络参数的对比方法,包括参数一致性检查(参数个数、shape、冻结状态)和权重迁移工具的使用。重点阐述了网络输出对比和逐层对比两种调试策略:静态图模式下使用Dump工具导出算子数据,动态图模式下可采用Debug、USEFUL_TOOLS或Hook功能进行对比。文中提供了各工具的具体使用链接,并强调对比时需去除随机因素,确保网络结构和节点名称一致才能使用自动化工具。

2025-08-22 11:48:36 261

原创 AltCLIP模型论文解读,并基于MindSpore NLP推理复现

AltCLIP模型通过创新性地替换CLIP的文本编码器为多语言XLM-R,采用两阶段训练(知识蒸馏+对比学习),显著提升了多语言视觉-语言任务性能。相比传统方法,该模型数据需求降低90%(仅需36M平行文本和2M图文对),在图像分类、跨模态检索等任务中表现优异,尤其在中英文任务上超越基线模型。模型支持9种语言,展现出强大的扩展性和泛化能力。实验使用MindSporeNLP验证了其效果,为多模态AI研究提供了高效的新思路。

2025-08-22 11:43:14 790

原创 MindSpore优化器实现原理深度解析—adam优化器

本文介绍了MindSpore深度学习框架中优化器系统的核心设计与实现。重点分析了Adam优化器的四层架构设计(用户接口层、基类层、算法实现层、执行层)及其关键组件。详细阐述了Adam算法的数学原理、执行流程及其变体(AdamWeightDecay、AdamOffload)的特性。特别强调了性能优化技术,包括算子融合、内存管理和并行优化策略。文章还总结了学习率调度机制和工程实践要点,如参数分组、梯度处理等。MindSpore优化器系统通过分层设计和多项优化技术,实现了高效、灵活的参数优化方案。

2025-08-22 11:41:10 799

原创 MindSpore实现扩散模型系列——DDPM

本文介绍了基于扩散过程的生成模型DDPM,该模型通过逐步去除图像噪声来生成高质量样本。DDPM采用双向马尔可夫链结构,包括固定的正向扩散过程(逐步添加高斯噪声)和参数化的反向去噪过程(使用神经网络预测噪声)。模型使用U-Net架构,结合时间嵌入和多尺度特征,通过优化变分下界简化训练。数学推导表明,正向过程可直接由初始数据生成任意时刻的噪声数据,而反向过程通过贝叶斯公式推导均值。代码展示了MindSpore实现,包括时间嵌入模块、U-Net结构和损失计算。DDPM通过噪声预测机制避免了显式估计复杂分布,实现了

2025-08-15 10:27:40 773

原创 MindSpore实现扩散模型系列——DDIM

DDIM 是基于 DDPM 改进的迭代隐式概率扩撒模型,核心目标是在保持生成质量的同时加速采样过程。通过引入非马尔可夫扩散过程和确定性采样机制,DDIM 允许在去噪时跳过部分时间步,可以显著减少计算量。可调方差参数:通过控制反向过程的随机性,实现从完全随机(DDPM)到完全确定(无噪声)的采样模式;跳跃式采样:无需遍历所有时间步,可直接在预设的关键时间点之间跳转,大幅提升生成速度。非马尔可夫过程:打破 DDPM 的严格马尔可夫链限制,允许当前状态依赖任意历史状态;

2025-08-15 10:18:18 620

原创 MindSpore实现扩散模型系列——LDM

LDM(Latent Diffusion Model)是一种基于潜在空间的扩散模型,通过将图像压缩到低维潜在空间进行高效生成。核心思想包括:1)使用VAE编码器将图像映射到潜在空间;2)在潜在空间执行扩散过程,通过UNet逐步去噪;3)支持多模态条件生成(如文本、图像)。相比传统扩散模型,LDM在潜在空间操作显著降低了计算复杂度,同时采用交叉注意力机制实现条件控制。模型结构包含编码器-解码器模块、时间编码模块、UNet去噪网络等组件,通过分层扩散机制生成高质量图像。该方法在图像生成任务中展现出高效性和可控性

2025-08-15 10:09:45 590

原创 MindSpore实现扩散模型——CFG

Classifier-Free Guidance(CFG)是2022年提出的扩散模型优化技术,通过联合训练有条件/无条件生成模型,避免了传统方法对显式分类器的依赖。其核心特点包括:1)无需额外训练分类器;2)训练时随机丢弃条件信息;3)推理时通过引导强度参数w灵活调节生成质量。CFG基于共享U-Net架构,在推理阶段对两种预测结果进行线性组合(ε_w = ε_uncond + w*(ε_cond - ε_uncond)),当w>1时增强条件契合度,w<1时提升多样性。该方法显著提升了文本生成图像

2025-08-15 10:07:46 890

原创 MindSpore实现扩散模型——Palette

Palette是一种基于扩散模型的通用图像转换框架,能够完成图像着色、修复、补全和JPEG恢复等多种任务。该模型采用统一的架构设计,通过条件扩散模型实现多任务处理,无需针对不同任务进行特定调整。其核心是256×256分辨率的条件UNet网络,利用跳跃连接实现多尺度特征融合,并通过L2损失函数保证生成样本的多样性。模型在预训练基础上,通过任务条件化适配、自适应噪声调度和后期质量优化等步骤提升性能。代码实现包括时间嵌入、残差块等关键组件,采用MindSpore框架开发。

2025-08-15 10:02:23 655

原创 东南大学魏秀参:基于智能感知的工业AI质检算法与应用实践

摘要:本项目针对工业AI质检中异常样本稀缺、检测精度不足等问题,提出基于智能感知与元学习的创新解决方案。通过构建极小样本单类识别元学习范式,实现仅凭单个正样本即可精准判别异常;采用层次多粒度采样和多目标自适应阈值调节技术,显著提升细粒度检测能力。项目成果已应用于海底管道环焊缝缺陷检测等场景,检测效率提升30%以上,并形成"技术研发-产业应用-人才培养"的闭环体系。同时将研究成果转化为课程资源,培养学生解决复杂工程问题的能力,为智能制造领域输送复合型人才。

2025-08-15 09:58:07 880

原创 昇思MindSpore 2.7版本正式发布,支持ZeroBubbleV流水线并行调度提升训练效率,升级适配vLLM V1架构,采用组合优化提升DeepSeek-V3推理性能

昇思MindSpore 2.7版本发布多项关键升级:1)大模型训练性能显著提升,创新实现ZeroBubbleV流水线并行调度和重计算通信掩盖技术;2)生态兼容性增强,升级适配vLLM v0.8.3,优化DeepSeek-V3推理性能35%+;3)强化学习性能突破,支持动态packing训练(吞吐翻倍)和6D并行权重重排技术;4)新增msMonitor在线监控平台和msprobe工具,实现训练性能实时诊断与静态图精度问题快速定位。该版本在大模型训练、推理优化、工具链等方面均有重大突破。

2025-08-14 16:48:12 1104

原创 性能大幅提升、任务中断快速恢复!昇思MindSpore助力中国移动MoE大模型训练加速

随着AI技术深入千行百业,高效、稳定、自主创新的大模型训练平台将成为智能时代的基础设施。中国移动与昇思MindSpore的合作范例,为行业提供了可复制的技术路径,将加速推动我国人工智能产业从跟随创新向引领创新的历史性跨越。在不久的将来,这种"性能与效率并重"的技术理念,必将孕育出更多突破性成果,为中国AI生态的繁荣发展注入强劲动力。

2025-08-13 14:42:13 300

原创 MindSpore图算融合:从计算图到昇腾芯片的极致优化实践​

摘要:MindSpore图算融合技术通过动态图调试与静态图执行相结合,配合芯片级指令优化,在ResNet-50训练中实现较PyTorch 3.1倍的性能提升。该技术采用三级优化体系(基础优化、算子融合、硬件映射),通过显存池化、算子深度融合及昇腾CUBE指令优化,显著提升计算效率。实测显示,该技术使CV模型训练平均加速2.8倍,推理时延降低62%,显存碎片率从35%降至3%以下,为AI模型训练提供了革命性的性能优化方案。

2025-08-13 14:34:51 807

第五期《MindFormers套件之大模型》

第五期《MindFormers套件之大模型

2023-10-18

第三期《MindFormers套件之大模型Lora微调》

第三期《MindFormers套件之大模型Lora微调》

2023-10-18

第一期·MindFormers大模型套件《架构讲解与使用入门》

第一期·MindFormers大模型套件《架构讲解与使用入门》

2023-10-18

第四期《MindFormers套件之大模型文本生成和分布式在线推理》

第四期《MindFormers套件之大模型文本生成和分布式在线推理》

2023-10-18

MindSpore大规模分布式并行培训第一期

MindSpore大规模分布式并行培训第一期

2023-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除