- 博客(7)
- 收藏
- 关注
原创 【mindstudio_insight_jupyterlab】昇腾性能分析工具使用指南
本文介绍了如何在服务器上部署MindStudio Insight性能分析工具,通过JupyterLab实现远程性能数据分析。主要内容包括:1)安装JupyterLab(需Python≥3.8);2)下载并安装mindstudio_insight_jupyterlab扩展包;3)配置JupyterLab服务(设置IP和端口);4)启动服务并通过浏览器访问。该方法避免了将海量性能数据下载到本地,直接在服务器端完成分析,解决了本地电脑性能不足和传输耗时的问题。文中提供了详细的安装配置步骤和验证方法,最终可通过We
2026-03-04 09:30:13
198
原创 DeepSeek v3 无辅助损失负载均衡&序列维度辅助损失原理以及MindSpeed代码走读
本文介绍了DeepSeek-V3模型中的负载均衡策略。传统的MoE模型依赖辅助损失函数实现负载均衡,但可能导致模型性能下降。DeepSeek-V3创新性地提出无辅助损失负载均衡方法,通过动态调整专家偏置项b_i来平衡负载,既保持训练稳定性又避免干扰主模型。同时引入极小的序列级辅助损失防止极端不平衡情况。文章还分析了MindSpeed-LLM框架中相关参数的实现逻辑,包括路由函数选择和偏置项初始化等。这种平衡策略在保证计算效率的同时,显著提升了模型性能。
2026-01-19 14:40:49
769
原创 SGLang框架:原理、优化与比较分析
SGLang是一个针对大型语言模型和视觉语言模型的高效推理框架,通过协同优化前后端架构提升性能。其核心特性包括:高效的RadixAttention前缀缓存、FP8量化推理、多节点张量并行等技术优化计算效率;支持多模态输入和结构化生成的X-Grammar功能;以及通过Rust重构的智能负载均衡器降低服务开销。在DeepSeek模型优化中,SGLang解决了MLA架构冗余计算、高并发内存瓶颈等问题,使吞吐量提升7倍,并支持超大规模模型部署。该框架已应用于Llama、Gemma等主流模型,显著提升多模态任务处理能
2026-01-19 11:18:01
816
原创 华为昇腾镜像仓库整理
本文档提供了华为昇腾AI服务器上Qwen、Deepseek和Llama系列模型的Docker镜像索引,包括vllm-ascend和mindie两种镜像类型。针对不同服务器型号(800I-A2/A3)分别给出了具体的镜像拉取命令,确保开发者能够快速获取正确的镜像版本,提升部署效率和环境一致性。主要涵盖Qwen3-235B/30B、DeepSeek-R1/V2/V3以及LLaMA3-8B等主流大模型。
2025-12-30 21:44:13
1033
原创 【vLLM-模型特性适配】Minimax模型特性分析
本文分析了Minimax公司发布的大模型架构的创新技术及其应用。重点介绍了Lightning Attention结构,通过结合Linear Attention与分块计算实现线性复杂度,支持超长上下文处理(训练100万tokens/推理400万tokens)。文章还解析了CISPO算法如何优化PPO在长序列生成中的梯度裁剪问题,以及主流线性注意力模型(如Qwen3_next、Kimi Linear等)的技术特点。研究表明,当前线性注意力结构在算力利用上仍存在局限性,其优势主要在超长上下文场景中显现。这些创新技
2025-12-30 21:42:03
1136
原创 PP-OCRv4模型转OM全流程操作指南
为确保流程兼容性,需严格匹配以下依赖版本,避免因版本不兼容导致的功能异常。可以使用mindie镜像或者cann包镜像,详细见昇腾社区镜像仓库。
2025-12-18 17:01:41
1140
原创 veRL异卡方案
上半年veRL社区多了一个pr来支持训推异卡方案:众所周知,veRL之前是只有共卡方案的,它的整体设计,数据传输等等都是基于共卡进行的设计,因此会有一些别扭的地方,比如没有类似transferdock的数据存储。之前在DAPO的实现里,rollout的数量如果超过训练所需的,那么就会把多余的结果舍去,而不是像mindspeed-rl一样可以暂时放在transferdock里之后再用。
2025-12-18 16:54:48
1026
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅