自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_58526864的博客

原创【vLLM-Ascend】 ModelRunner架构解析

本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner，重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能，支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等，通过torchair/ACL Graph实现NPU图捕获优化。特别说明了主模型推理与MTP模型推理的三阶段流程，涵盖从输入处理到token采样的完整推理链

2026-05-21 10:00:12 378

原创【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token，将1-token的生成，转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

2025-12-30 19:38:22 1439

原创【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能，旨在通过即时编译（JIT）技术将 PyTorch 模型编译为更高效的机器代码，从而显著提升模型训练和推理的运行速度，同时几乎不需要用户修改原有代码

2025-12-30 19:29:41 1169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除