- 博客(3)
- 收藏
- 关注
原创 【vLLM-Ascend】 ModelRunner架构解析
本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner,重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能,支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等,通过torchair/ACL Graph实现NPU图捕获优化。特别说明了主模型推理与MTP模型推理的三阶段流程,涵盖从输入处理到token采样的完整推理链
2026-05-21 10:00:12
378
原创 【vllm-ascend】 MTP原理及工程适配
MTP通过并行预测多个Token,将1-token的生成,转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。
2025-12-30 19:38:22
1439
原创 【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用
`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能,旨在通过即时编译(JIT)技术将 PyTorch 模型编译为更高效的机器代码,从而显著提升模型训练和推理的运行速度,同时几乎不需要用户修改原有代码
2025-12-30 19:29:41
1169
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅