小行星B0302-CSDN博客

原创 Qwen3.5 MoE结构拆解和profiling分析

2026年，千问发布了Qwen3.5系列模型，其中MoE模型参数量更大，语义理解能力更强，同时由于每次前向计算只激活少量专家，推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开，内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析，请以官方代码仓为准。transformers仓中的Qwen3_5MoeSpareMoeBlock是MoE层的实现类。计算流程如图2所示。

2026-06-12 10:56:12 235

原创 vllm/vllm-ascned 多轮工具调用失败问题分析与解决

在使用vllm/vllm-ascned进行多轮工具调用时，遇到了调用失败的问题。本文将详细描述问题现象、初步定位、根因分析及解决方案，帮助开发者解决类似问题。

2026-05-21 21:28:00 246

原创 Qwen3-Omni多模态推理性能优化实践：基于昇腾的P99时延与QPS双提升

在构建高并发、低延迟的多模态AI分析系统时，L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解，输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型，围绕关键算子瓶颈展开深度优化，实现性能突破。

2026-05-21 21:25:02 357

原创【vLLM-Ascend】基于PyTorch Profiler的性能数据采集实践

在大模型推理服务的性能调优过程中，精准定位计算瓶颈、分析算子执行效率与资源利用率是提升系统吞吐与响应速度的关键。vLLM-Ascend作为基于昇腾NPU的高性能推理框架，集成了Ascend PyTorch Profiler能力，支持从框架层到硬件层的全栈性能数据采集。本文以Qwen3-32B模型为例，详细介绍如何在v0.14.0rc1版本中配置并采集在线服务的profiling数据，涵盖环境准备、服务拉起、采集触发、结果解析等全流程操作，帮助开发者快速掌握性能分析工具链的使用方法。

2026-05-19 10:43:32 560

原创【triton】确定性mean算子在NPU上的适配与优化实践

本文系统实现了NPU平台上mean_batch_invariant算子的确定性计算支持。通过适配向量核资源、优化访存模式（输入转置、消除离散访问）等关键技术，在保持与PyTorch高精度一致的同时，显著提升计算效率。测试验证了算子具备确定性。该工作为NPU平台确定性推理提供了可复用的技术范式，为后续更多triton算子适配奠定基础。

2026-05-19 10:38:07 391

原创 NPU推理性能优化实践：从CPU下发瓶颈到算子级调优

本文针对Qwen2-1.5B模型在Atlas 800I A2单卡部署中的性能瓶颈展开分析，发现主要问题为下发延迟和算子执行效率。通过KAT自动调优和KSYS系统分析，识别出NUMA访问、缓存命中率等关键瓶颈，并提出绑核优化、内存绑定等解决方案。最终实现34%的TPOT性能提升，为NPU推理优化提供系统性方法，建议持续监控并开展更深层次的算子级优化。

2026-03-31 11:12:30 252

原创 Ascend（昇腾）性能优化文章导航

作者：昇腾实战派算力赋能时代，性能优化既是突破算力瓶颈的关键，也是国产化智能化转型的核心命题。本文聚焦昇腾设备全链路性能优化，汇总从硬件到软件，从算子到框架的实用干货，拆解调优技巧、分享实战案例、解答常见痛点。无论你是深耕昇腾的技术开发者，还是初探优化领域的初学者，都能在这里找到有价值的内容，一起解锁昇腾算力潜能，共探性能优化之道。

2026-03-31 11:06:05 260

原创【CUDA】CUDA C++介绍

并行计算：以vector add为例，计算output中第一个元素的过程和计算第二、三个元素的过程独立。CPU+高速总线（PCIE/NVLink）+GPU（用于数学/科学计算，有自己的操作系统）main函数调用该kernel时，也需要修改调用参数。改写add()来使用并行线程，而非并行blocks。使用threadIdx.x代替blockIdx.x。术语：一个block可以被划分为并行线程。但是不同块中的线程没有这个能力。

2026-03-01 08:00:00 1660

原创【triton教程】Triton-Ascend环境安装指南

Triton-Ascend 是适配华为 Ascend 昇腾芯片的 Triton 优化版本，提供高效的核函数自动调优、算子编译及部署能力。本文将详细介绍在昇腾环境中安装Triton-Ascend的完整流程，涵盖环境准备、依赖安装和验证测试等关键步骤。

2026-02-26 10:21:46 1085

原创【triton教程】向量加法

本文介绍了使用Triton DSL实现向量加法的基本方法。Triton通过块级抽象简化并行编程，开发者只需关注数据划分和计算逻辑。文中展示了kernel定义和调用的关键代码：kernel使用@triton.jit装饰器编译，通过tl.load和tl.store进行数据读写；调用时需指定执行网格和块大小。重点注意事项包括tl.constexpr声明编译时常量、隐式指针转换等。该示例演示了Triton在GPU/NPU上实现高性能计算的简洁编程模式。

2026-01-16 19:43:01 668

qq_41907803的博客