LeEe_zw-CSDN博客

原创 nano vllm Scheduler、ModelRunner以及LLMEngine 解析

nano vllm 的高效推理依赖于 Scheduler、ModelRunner 和 LLMEngine 三个核心组件的协同工作，三者分别承担调度、执行和统筹功能，共同实现轻量化、高速度的模型推理。

2025-08-17 21:52:54 1046

原创 nano vllm解析

nano vllm不仅做到轻量化，而且推理速度也媲美vllm，同时代码结构相对于vllm来说也更简洁，更适合小白入门学习源码。笔者自己在学习该项目时也存在部分问题，因项目缺少注释，或者部分地方难以理解。将阅读源码的笔记分享出来，与广大网友共进。如有不正确的地方，欢迎大家指正。

2025-08-13 20:44:39 980

CuTe是NVIDIA CUTLASS库的核心组件，提供了一套现代C++模板库用于高性能CUDA内核开发。其设计哲学是通过编译时计算和类型安全的抽象，让开发者能够以声明式的方式描述复杂的内存访问模式和计算流程。mma使用tensorcore来完成简单小规模的matmul，用数学解释，下图即展示了MMA完成的事情，图中的matrix A和matrix B相乘得到matrix C，公式里的D为累加的地方，如果后续一次TiledMMA不足以覆盖K方向，则会多次重复，那么公式里D和C。

2025-06-14 05:26:38 1360

原创 CUDA 编程基础简单介绍以及 Element-wise Add 优化实现解析

在L20上的表现优化方向实现方法收益预估向量化访存使用float4/half2宽类型加载2-4x带宽↑SIMD指令__hadd2等向量运算指令2x计算↑内存访问模式二维分块保证连续性30%延迟↓线程块配置最大化线程块利用率（接近1024）20%吞吐↑。

2025-02-27 01:25:08 868

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2301_79680896的博客

原创 nano vllm Scheduler、ModelRunner以及LLMEngine 解析

原创 nano vllm解析

原创 CuTe TiledMMA学习中的疑点自答

原创 CUDA 编程基础简单介绍以及 Element-wise Add 优化实现解析

空空如也

空空如也

原创 nano vllm Scheduler、ModelRunner以及LLMEngine 解析

原创 nano vllm解析

原创 CuTe TiledMMA学习中的疑点自答

原创 CUDA 编程基础简单介绍 以及 Element-wise Add 优化实现解析

空空如也

空空如也

原创 CUDA 编程基础简单介绍以及 Element-wise Add 优化实现解析