- 博客(816)
- 资源 (14)
- 收藏
- 关注
原创 大模型推理引擎vLLM(19): vLLM中的DBO(Dual Batch Overlap)功能代码实现分析
大模型推理引擎vLLM(19): vLLM中的DBO(Dual Batch Overlap)功能代码实现分析
2026-03-24 20:24:49
428
原创 大模型推理引擎vLLM(18): vLLM中的SBO(single batch overlapping)功能代码实现分析
大模型推理引擎vLLM(18): vLLM中的SBO(single batch overlapping)功能代码实现分析
2026-03-09 11:57:12
488
原创 大模型推理引擎vLLM(17): vllm/vllm/model_executor/layers/fused_moe/modular_kernel.py代码阅读笔记
大模型推理引擎vLLM(17): vllm/vllm/model_executor/layers/fused_moe/modular_kernel.py代码阅读笔记
2026-03-05 16:51:21
414
原创 大模型推理引擎vLLM(16): vLLM V1 架构与推理流程学习笔记
大模型推理引擎vLLM(16): vLLM V1 架构与推理流程学习笔记
2026-02-25 17:18:33
1040
原创 大模型推理引擎vLLM(15): Scheduler / Worker整体介绍
大模型推理引擎vLLM(15): Scheduler / Worker整体介绍
2026-02-23 16:10:55
335
原创 大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码
大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码
2026-02-22 16:44:53
671
转载 大模型推理引擎vLLM(7): Chunked-Prefills 分块预填充机制
大模型推理引擎vLLM(7): Chunked-Prefills 分块预填充机制
2026-02-20 09:37:04
305
转载 大模型推理引擎 vLLM (6):Prefix Caching 机制----vLLM哈希方案和SGlang基数树方案
大模型推理引擎 vLLM (6):Prefix Caching 机制----vLLM哈希方案和SGlang基数树方案
2026-02-19 13:55:31
192
原创 大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析
2026-01-17 17:11:30
1237
原创 大模型推理引擎vLLM(1): FlashAttention论文以及原理解析
大模型推理引擎vLLM(1): FlashAttention论文以及原理解析
2026-01-10 18:42:39
1016
原创 彻底梳理onnxruntime代码(4):session.Run流程、执行compute_func、模型的re-compile
彻底梳理onnxruntime代码(4):session.Run流程、执行compute_func、模型的re-compile
2026-01-05 11:33:03
1053
原创 彻底梳理onnxruntime代码(3):CreateSessionAndLoadModel、模型加载、InitializeSession、EP创建与注册、核函数注册、模型编译与优化
彻底梳理onnxruntime代码(3):CreateSessionAndLoadModel、模型加载、InitializeSession、EP创建与注册、核函数注册、模型编译与优化
2026-01-05 11:31:52
739
原创 彻底梳理onnxruntime代码(2): sessionOptions.AppendExecutionProvider、加载后端库、注册核函数
彻底梳理onnxruntime代码(2): sessionOptions.AppendExecutionProvider、加载后端库、注册核函数
2026-01-05 11:29:22
951
原创 彻底梳理onnxruntime代码(1):ortApis代码流程、C与C++接口的关系、怎么获取OrtApiBase结构体
彻底梳理onnxruntime代码(1):ortApis代码流程、C与C++接口的关系、怎么获取OrtApiBase结构体
2026-01-05 11:28:04
889
原创 Transformer彻底剖析(5):带掩码的多头自注意力与多头编解码注意力、三个注意力模块有什么区别,作用分别是什么
Transformer彻底剖析(5):带掩码的多头自注意力与多头编解码注意力
2025-12-21 08:57:00
947
原创 一个由代码规范性导致的bug:结构体没有memset导致的Segmentation fault (core dumped)
一个由代码规范性导致的bug:结构体没有memset导致的Segmentation fault (core dumped)
2025-12-17 14:34:44
279
原创 Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力
Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力
2025-12-12 17:21:00
1138
原创 Transformer彻底剖析(1):GPT中的Transformer架构
Transformer彻底剖析(1):GPT中的Transformer架构
2025-12-06 14:22:53
1106
原创 Transformer彻底剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题
Transformer细节剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题
2025-11-29 15:34:57
288
原创 sherpa-onnx实现ASR(语音转文字)和 TTS(文字转语音)
sherpa-onnx 是开源项目,由 k2‑fsa 组织维护,定位为 “部署框架”中 sherpa 的一个子项目。它的核心目标是:支持“语音处理”相关任务(如:语音识别/ASR、语音合成/TTS、说话人识别/Diarization、VAD、关键词唤醒、语言识别等)在多种设备/平台上本地运行,而无需联网。它使用的是 ONNX 格式模型 + ONNX Runtime 作为推理引擎,从而具备跨平台、较好兼容性的特点。K2 FSA+1。
2025-10-28 13:58:56
2360
原创 Triton inference server自定义C++ backend流程
Triton inference server自定义C++ backend流程介绍
2025-06-20 14:59:32
879
原创 triton inference server的backend插件机制代码流程梳理、模型加载代码梳理
triton inference server代码流程梳理、模型加载代码梳理
2025-06-20 14:57:56
1447
瑞芯微RV1126开发板算法移植说明文档-环境搭建-opencv交叉编译-C++推理代码-yolov5算法移植-分类算法移植-人脸检测识别算法移植
2025-01-16
pytorch学习视频百度网盘链接.txt
2020-02-23
ndjpnladcallmjemlbaebfadecfhkepb.zip
2020-08-04
2020-07-24-21-20-52-download-P3X-OneNote-2020.10.105.AppImage
2020-08-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅