Lumos_Lovegood-CSDN博客

原创【mindstudio_insight_jupyterlab】昇腾性能分析工具使用指南

本文介绍了如何在服务器上部署MindStudio Insight性能分析工具，通过JupyterLab实现远程性能数据分析。主要内容包括：1）安装JupyterLab（需Python≥3.8）；2）下载并安装mindstudio_insight_jupyterlab扩展包；3）配置JupyterLab服务（设置IP和端口）；4）启动服务并通过浏览器访问。该方法避免了将海量性能数据下载到本地，直接在服务器端完成分析，解决了本地电脑性能不足和传输耗时的问题。文中提供了详细的安装配置步骤和验证方法，最终可通过We

2026-03-04 09:30:13 198

原创 DeepSeek v3 无辅助损失负载均衡&序列维度辅助损失原理以及MindSpeed代码走读

本文介绍了DeepSeek-V3模型中的负载均衡策略。传统的MoE模型依赖辅助损失函数实现负载均衡，但可能导致模型性能下降。DeepSeek-V3创新性地提出无辅助损失负载均衡方法，通过动态调整专家偏置项b_i来平衡负载，既保持训练稳定性又避免干扰主模型。同时引入极小的序列级辅助损失防止极端不平衡情况。文章还分析了MindSpeed-LLM框架中相关参数的实现逻辑，包括路由函数选择和偏置项初始化等。这种平衡策略在保证计算效率的同时，显著提升了模型性能。

2026-01-19 14:40:49 769

原创 SGLang框架：原理、优化与比较分析

SGLang是一个针对大型语言模型和视觉语言模型的高效推理框架，通过协同优化前后端架构提升性能。其核心特性包括：高效的RadixAttention前缀缓存、FP8量化推理、多节点张量并行等技术优化计算效率；支持多模态输入和结构化生成的X-Grammar功能；以及通过Rust重构的智能负载均衡器降低服务开销。在DeepSeek模型优化中，SGLang解决了MLA架构冗余计算、高并发内存瓶颈等问题，使吞吐量提升7倍，并支持超大规模模型部署。该框架已应用于Llama、Gemma等主流模型，显著提升多模态任务处理能

2026-01-19 11:18:01 816

原创华为昇腾镜像仓库整理

本文档提供了华为昇腾AI服务器上Qwen、Deepseek和Llama系列模型的Docker镜像索引，包括vllm-ascend和mindie两种镜像类型。针对不同服务器型号（800I-A2/A3）分别给出了具体的镜像拉取命令，确保开发者能够快速获取正确的镜像版本，提升部署效率和环境一致性。主要涵盖Qwen3-235B/30B、DeepSeek-R1/V2/V3以及LLaMA3-8B等主流大模型。

2025-12-30 21:44:13 1033

原创【vLLM-模型特性适配】Minimax模型特性分析

本文分析了Minimax公司发布的大模型架构的创新技术及其应用。重点介绍了Lightning Attention结构，通过结合Linear Attention与分块计算实现线性复杂度，支持超长上下文处理（训练100万tokens/推理400万tokens）。文章还解析了CISPO算法如何优化PPO在长序列生成中的梯度裁剪问题，以及主流线性注意力模型（如Qwen3_next、Kimi Linear等）的技术特点。研究表明，当前线性注意力结构在算力利用上仍存在局限性，其优势主要在超长上下文场景中显现。这些创新技

2025-12-30 21:42:03 1136

原创 PP-OCRv4模型转OM全流程操作指南

为确保流程兼容性，需严格匹配以下依赖版本，避免因版本不兼容导致的功能异常。可以使用mindie镜像或者cann包镜像，详细见昇腾社区镜像仓库。

2025-12-18 17:01:41 1140

原创 veRL异卡方案

上半年veRL社区多了一个pr来支持训推异卡方案：众所周知，veRL之前是只有共卡方案的，它的整体设计，数据传输等等都是基于共卡进行的设计，因此会有一些别扭的地方，比如没有类似transferdock的数据存储。之前在DAPO的实现里，rollout的数量如果超过训练所需的，那么就会把多余的结果舍去，而不是像mindspeed-rl一样可以暂时放在transferdock里之后再用。

2025-12-18 16:54:48 1026

Lumos_Lovegood的博客