自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 nano vllm Scheduler、ModelRunner以及LLMEngine 解析

nano vllm 的高效推理依赖于 Scheduler、ModelRunner 和 LLMEngine 三个核心组件的协同工作,三者分别承担调度、执行和统筹功能,共同实现轻量化、高速度的模型推理。

2025-08-17 21:52:54 1021

原创 nano vllm解析

nano vllm不仅做到轻量化,而且推理速度也媲美vllm,同时代码结构相对于vllm来说也更简洁,更适合小白入门学习源码。笔者自己在学习该项目时也存在部分问题,因项目缺少注释,或者部分地方难以理解。将阅读源码的笔记分享出来,与广大网友共进。如有不正确的地方,欢迎大家指正。

2025-08-13 20:44:39 963

原创 CuTe TiledMMA学习中的疑点自答

CuTe是NVIDIA CUTLASS库的核心组件,提供了一套现代C++模板库用于高性能CUDA内核开发。其设计哲学是通过编译时计算和类型安全的抽象,让开发者能够以声明式的方式描述复杂的内存访问模式和计算流程。mma使用tensorcore来完成简单小规模的matmul,用数学解释,下图即展示了MMA完成的事情,图中的matrix A和matrix B相乘得到matrix C,公式里的D为累加的地方,如果后续一次TiledMMA不足以覆盖K方向,则会多次重复,那么公式里D和C。

2025-06-14 05:26:38 1310

原创 CUDA 编程基础简单介绍 以及 Element-wise Add 优化实现解析

在L20上的表现优化方向实现方法收益预估向量化访存使用float4/half2宽类型加载2-4x带宽↑SIMD指令__hadd2等向量运算指令2x计算↑内存访问模式二维分块保证连续性30%延迟↓线程块配置最大化线程块利用率(接近1024)20%吞吐↑。

2025-02-27 01:25:08 860

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除