- 博客(25)
- 资源 (2)
- 收藏
- 关注
原创 【Day9】vllm 一条请求的生命周期 5
以一条请求的生命周期为切入点,找到经典设计的代码入口。行业共识主要是三个设计:Continuous batching(连续批处理)KV cache(以存代算)[本小结学习]Memory-aware Scheduling(内存感知调度)前面的路径已经看到一条新来的请求被构建成了 Request 并放置在 scheduler 的 waitting queue,又从 waitting queue 取出来进行调度。
2026-06-03 00:10:59
190
原创 【Day8】vllm 一条请求的生命周期 4
真正应该关心的是:而不是:因为一个 32k prompt,如果已经算了 31.8k:它此刻已经不是一个真正的 long job 了。反过来,一个 prompt 可能总长度不算特别大,但由于当前 token budget 很紧,也可能需要被拆成多轮。
2026-05-24 19:02:01
386
原创 【Day7】vllm 一条请求的生命周期 3
以一条请求的生命周期为切入点,找到经典设计的代码入口。根据概述和的学习,今天继续学习核心部分 scheduler。但最近看了下实际生产环境的部署,感觉即使是上面两层次,并行处理/分布式处理,也大有学问,EP + DP + PP 多种并行方向也值得研究。又 Mark 住了。
2026-05-17 15:55:07
352
原创 【Day5】vllm 一条请求的生命周期
概览一条请求在 vLLM 中的完整生命周期可以分为以下几个主要阶段:│▼ ①│▼ ②│▼ ③│▼ ④│▼ ⑤EngineCore.step() Loop (核心推理循环)││││▼ ⑥│▼ ⑦安装开发环境比我想象得麻烦,下一章节再开始记录源码阅读和调试过程。
2026-05-05 22:09:53
233
原创 【Day4】了解 vllm 的 test 框架和 Roadmap
今天继续以用户视角来学习。了解 vllm 的正确打开方式。一个是了解 vllm 的 benchmark,测试框架,另一个是想了解 vllm 社区的本季度重点工作。可以观察 vllm 的发展趋势。
2026-04-30 00:26:19
380
原创 【Day3】用 vllm 部署本地模型并观察日志
今天看了下 sglang 和 vllm 的代码仓以及根据 chatgpt 的建议,我准备转而学习 vllm。但之前的实验不白做,概念也是通的。今日目标:用 vllm 部署本地模型并观察日志。
2026-04-28 22:11:44
178
原创 【Day2】学习看 sglang 运行日志
并发执行 curl 请求,观察 sglang 如何 schedule 和 decode,batching 等。观察运行时 GPU 的变化。其实这里我在思考要不要开始啃源码了,毕竟数据库出身,看大型项(屎)目(山)的本领比较强。
2026-04-27 15:49:43
405
原创 大模型驱动数据库调研 illumex
大模型学习了什么?从某种程度上来看,大模型 LLM 已经学习到了“语言能力”、“总结能力”、“翻译能力”、一些常识、 一定的数学推理能力、一定的代码能力(取决于训练数据)。基于这些能力,大模型已经能够提供某些服务和应用。企业可以用大模型做什么?因此,一个企业、机构,如果要部署一个大模型,一定离不开一个数据平台。这个数据平台赋予大模型实时性,驱动大模型利用存量的结构化数据分析,集成公司内部智慧,赋予私域大模型更专业的能力,赋能企业做出更好的决策。
2024-07-25 17:36:41
492
原创 C++ STL
构造//创建一个vector,元素个数为5//创建一个vector,元素个数为5,所有元素值-1// 复制构造函数//复制v3[begin,end)区间内的元素到v4中操作// 尾插// 输出6/* 插入 */// 第0个位置100,后面都是初始化的-1// 第1个位置开始连插入5个-100// v2的末尾插入v1// 遍历/* 删除 */
2023-09-11 14:34:21
131
原创 PostgreSQL 索引
一些加速的trick:high-key、fastroot。怎么快速查的(Design:高并发)怎么维护(分裂、剪枝、回收、合并)对接执行器(操作与接口)
2023-03-14 19:40:04
172
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅