自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 【vLLM-Ascend】 ModelRunner架构解析

本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner,重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能,支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等,通过torchair/ACL Graph实现NPU图捕获优化。特别说明了主模型推理与MTP模型推理的三阶段流程,涵盖从输入处理到token采样的完整推理链

2026-05-21 10:00:12 378

原创 【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token,将1-token的生成,转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

2025-12-30 19:38:22 1439

原创 【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能,旨在通过即时编译(JIT)技术将 PyTorch 模型编译为更高效的机器代码,从而显著提升模型训练和推理的运行速度,同时几乎不需要用户修改原有代码

2025-12-30 19:29:41 1169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除