自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Qwen3.5 MoE结构拆解和profiling分析

2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen3_5MoeSpareMoeBlock是MoE层的实现类。计算流程如图2所示。

2026-06-12 10:56:12 235

原创 vllm/vllm-ascned 多轮工具调用失败问题分析与解决

在使用vllm/vllm-ascned进行多轮工具调用时,遇到了调用失败的问题。本文将详细描述问题现象、初步定位、根因分析及解决方案,帮助开发者解决类似问题。

2026-05-21 21:28:00 246

原创 Qwen3-Omni多模态推理性能优化实践:基于昇腾的P99时延与QPS双提升

在构建高并发、低延迟的多模态AI分析系统时,L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解,输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型,围绕关键算子瓶颈展开深度优化,实现性能突破。

2026-05-21 21:25:02 357

原创 【vLLM-Ascend】基于PyTorch Profiler的性能数据采集实践

在大模型推理服务的性能调优过程中,精准定位计算瓶颈、分析算子执行效率与资源利用率是提升系统吞吐与响应速度的关键。vLLM-Ascend作为基于昇腾NPU的高性能推理框架,集成了Ascend PyTorch Profiler能力,支持从框架层到硬件层的全栈性能数据采集。本文以Qwen3-32B模型为例,详细介绍如何在v0.14.0rc1版本中配置并采集在线服务的profiling数据,涵盖环境准备、服务拉起、采集触发、结果解析等全流程操作,帮助开发者快速掌握性能分析工具链的使用方法。

2026-05-19 10:43:32 560

原创 【triton】确定性mean算子在NPU上的适配与优化实践

本文系统实现了NPU平台上mean_batch_invariant算子的确定性计算支持。通过适配向量核资源、优化访存模式(输入转置、消除离散访问)等关键技术,在保持与PyTorch高精度一致的同时,显著提升计算效率。测试验证了算子具备确定性。该工作为NPU平台确定性推理提供了可复用的技术范式,为后续更多triton算子适配奠定基础。

2026-05-19 10:38:07 391

原创 NPU推理性能优化实践:从CPU下发瓶颈到算子级调优

本文针对Qwen2-1.5B模型在Atlas 800I A2单卡部署中的性能瓶颈展开分析,发现主要问题为下发延迟和算子执行效率。通过KAT自动调优和KSYS系统分析,识别出NUMA访问、缓存命中率等关键瓶颈,并提出绑核优化、内存绑定等解决方案。最终实现34%的TPOT性能提升,为NPU推理优化提供系统性方法,建议持续监控并开展更深层次的算子级优化。

2026-03-31 11:12:30 252

原创 Ascend(昇腾)性能优化文章导航

作者:昇腾实战派算力赋能时代,性能优化既是突破算力瓶颈的关键,也是国产化智能化转型的核心命题。本文聚焦昇腾设备全链路性能优化,汇总从硬件到软件,从算子到框架的实用干货,拆解调优技巧、分享实战案例、解答常见痛点。无论你是深耕昇腾的技术开发者,还是初探优化领域的初学者,都能在这里找到有价值的内容,一起解锁昇腾算力潜能,共探性能优化之道。

2026-03-31 11:06:05 260

原创 【CUDA】CUDA C++介绍

并行计算:以vector add为例,计算output中第一个元素的过程和计算第二、三个元素的过程独立。CPU+高速总线(PCIE/NVLink)+GPU(用于数学/科学计算,有自己的操作系统)main函数调用该kernel时,也需要修改调用参数。改写add()来使用并行线程,而非并行blocks。使用threadIdx.x代替blockIdx.x。术语:一个block可以被划分为并行线程。但是不同块中的线程没有这个能力。

2026-03-01 08:00:00 1660

原创 【triton教程】Triton-Ascend环境安装指南

Triton-Ascend 是适配华为 Ascend 昇腾芯片的 Triton 优化版本,提供高效的核函数自动调优、算子编译及部署能力。本文将详细介绍在昇腾环境中安装Triton-Ascend的完整流程,涵盖环境准备、依赖安装和验证测试等关键步骤。

2026-02-26 10:21:46 1085

原创 【triton教程】向量加法

本文介绍了使用Triton DSL实现向量加法的基本方法。Triton通过块级抽象简化并行编程,开发者只需关注数据划分和计算逻辑。文中展示了kernel定义和调用的关键代码:kernel使用@triton.jit装饰器编译,通过tl.load和tl.store进行数据读写;调用时需指定执行网格和块大小。重点注意事项包括tl.constexpr声明编译时常量、隐式指针转换等。该示例演示了Triton在GPU/NPU上实现高性能计算的简洁编程模式。

2026-01-16 19:43:01 668

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除