- 博客(4)
- 收藏
- 关注
原创 nano vllm Scheduler、ModelRunner以及LLMEngine 解析
nano vllm 的高效推理依赖于 Scheduler、ModelRunner 和 LLMEngine 三个核心组件的协同工作,三者分别承担调度、执行和统筹功能,共同实现轻量化、高速度的模型推理。
2025-08-17 21:52:54
1021
原创 nano vllm解析
nano vllm不仅做到轻量化,而且推理速度也媲美vllm,同时代码结构相对于vllm来说也更简洁,更适合小白入门学习源码。笔者自己在学习该项目时也存在部分问题,因项目缺少注释,或者部分地方难以理解。将阅读源码的笔记分享出来,与广大网友共进。如有不正确的地方,欢迎大家指正。
2025-08-13 20:44:39
963
原创 CuTe TiledMMA学习中的疑点自答
CuTe是NVIDIA CUTLASS库的核心组件,提供了一套现代C++模板库用于高性能CUDA内核开发。其设计哲学是通过编译时计算和类型安全的抽象,让开发者能够以声明式的方式描述复杂的内存访问模式和计算流程。mma使用tensorcore来完成简单小规模的matmul,用数学解释,下图即展示了MMA完成的事情,图中的matrix A和matrix B相乘得到matrix C,公式里的D为累加的地方,如果后续一次TiledMMA不足以覆盖K方向,则会多次重复,那么公式里D和C。
2025-06-14 05:26:38
1310
原创 CUDA 编程基础简单介绍 以及 Element-wise Add 优化实现解析
在L20上的表现优化方向实现方法收益预估向量化访存使用float4/half2宽类型加载2-4x带宽↑SIMD指令__hadd2等向量运算指令2x计算↑内存访问模式二维分块保证连续性30%延迟↓线程块配置最大化线程块利用率(接近1024)20%吞吐↑。
2025-02-27 01:25:08
860
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅