拔山哥是大力-CSDN博客

原创【Day9】vllm 一条请求的生命周期 5

以一条请求的生命周期为切入点，找到经典设计的代码入口。行业共识主要是三个设计：Continuous batching（连续批处理）KV cache（以存代算）[本小结学习]Memory-aware Scheduling（内存感知调度）前面的路径已经看到一条新来的请求被构建成了 Request 并放置在 scheduler 的 waitting queue，又从 waitting queue 取出来进行调度。

2026-06-03 00:10:59 190

原创【Day8】vllm 一条请求的生命周期 4

真正应该关心的是：而不是：因为一个 32k prompt，如果已经算了 31.8k：它此刻已经不是一个真正的 long job 了。反过来，一个 prompt 可能总长度不算特别大，但由于当前 token budget 很紧，也可能需要被拆成多轮。

2026-05-24 19:02:01 386

原创【Day7】vllm 一条请求的生命周期 3

以一条请求的生命周期为切入点，找到经典设计的代码入口。根据概述和的学习，今天继续学习核心部分 scheduler。但最近看了下实际生产环境的部署，感觉即使是上面两层次，并行处理/分布式处理，也大有学问，EP + DP + PP 多种并行方向也值得研究。又 Mark 住了。

2026-05-17 15:55:07 352

原创【Day6】vllm 一条请求的生命周期 2

以一条请求的生命周期为切入点，找到经典设计的代码入口。根据。

2026-05-06 19:10:47 463

原创【Day5】vllm 一条请求的生命周期

概览一条请求在 vLLM 中的完整生命周期可以分为以下几个主要阶段：│▼ ①│▼ ②│▼ ③│▼ ④│▼ ⑤EngineCore.step() Loop (核心推理循环)││││▼ ⑥│▼ ⑦安装开发环境比我想象得麻烦，下一章节再开始记录源码阅读和调试过程。

2026-05-05 22:09:53 233

原创【Day4】了解 vllm 的 test 框架和 Roadmap

今天继续以用户视角来学习。了解 vllm 的正确打开方式。一个是了解 vllm 的 benchmark，测试框架，另一个是想了解 vllm 社区的本季度重点工作。可以观察 vllm 的发展趋势。

2026-04-30 00:26:19 380

原创【Day3】用 vllm 部署本地模型并观察日志

今天看了下 sglang 和 vllm 的代码仓以及根据 chatgpt 的建议，我准备转而学习 vllm。但之前的实验不白做，概念也是通的。今日目标：用 vllm 部署本地模型并观察日志。

2026-04-28 22:11:44 178

原创【Day2】学习看 sglang 运行日志

并发执行 curl 请求，观察 sglang 如何 schedule 和 decode，batching 等。观察运行时 GPU 的变化。其实这里我在思考要不要开始啃源码了，毕竟数据库出身，看大型项（屎）目（山）的本领比较强。

2026-04-27 15:49:43 405

原创【Day1】sglang 部署一个本地模型

sglang 部署一个本地模型

2026-04-26 18:13:04 220

原创 LLM 大模型推理加速技术栈

大模型推理加速技术

2025-11-28 21:24:43 644

原创数据库两阶段协议

两阶段协议详解

2025-03-21 14:46:34 1077

原创大模型挑战和技术方向概括（粗略）

大模型训练、推理面临挑战和技术方向（粗略）

2025-02-06 16:03:57 380

原创大模型驱动数据库调研 illumex

大模型学习了什么？从某种程度上来看，大模型 LLM 已经学习到了“语言能力”、“总结能力”、“翻译能力”、一些常识、一定的数学推理能力、一定的代码能力（取决于训练数据）。基于这些能力，大模型已经能够提供某些服务和应用。企业可以用大模型做什么？因此，一个企业、机构，如果要部署一个大模型，一定离不开一个数据平台。这个数据平台赋予大模型实时性，驱动大模型利用存量的结构化数据分析，集成公司内部智慧，赋予私域大模型更专业的能力，赋能企业做出更好的决策。

2024-07-25 17:36:41 492

原创 LLM 相关概念层次结构

LLM 相关概念、工具、产品、框架数不胜数，文本总结 LLM 各层次及产品之间的对应关系。采用自底向上的顺序。

2024-07-19 15:31:26 1008

原创 Cuda 学习纲领

cuda 学习纲领

2024-07-18 16:08:22 284

原创 Cuda 基础

Cuda 基础

2024-07-18 15:51:25 808

原创 C++ STL

构造//创建一个vector,元素个数为5//创建一个vector,元素个数为5,所有元素值-1// 复制构造函数//复制v3[begin,end)区间内的元素到v4中操作// 尾插// 输出6/* 插入 */// 第0个位置100，后面都是初始化的-1// 第1个位置开始连插入5个-100// v2的末尾插入v1// 遍历/* 删除 */

2023-09-11 14:34:21 131