- 博客(807)
- 资源 (14)
- 收藏
- 关注
转载 大模型推理引擎vLLM(7): Chunked-Prefills 分块预填充机制
大模型推理引擎vLLM(7): Chunked-Prefills 分块预填充机制
2026-02-20 09:37:04
28
转载 大模型推理引擎 vLLM (6):Prefix Caching 机制----vLLM哈希方案和SGlang基数树方案
大模型推理引擎 vLLM (6):Prefix Caching 机制----vLLM哈希方案和SGlang基数树方案
2026-02-19 13:55:31
16
原创 大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析
2026-01-17 17:11:30
1042
原创 大模型推理引擎vLLM(1): FlashAttention论文以及原理解析
大模型推理引擎vLLM(1): FlashAttention论文以及原理解析
2026-01-10 18:42:39
956
原创 彻底梳理onnxruntime代码(4):session.Run流程、执行compute_func、模型的re-compile
彻底梳理onnxruntime代码(4):session.Run流程、执行compute_func、模型的re-compile
2026-01-05 11:33:03
1009
原创 彻底梳理onnxruntime代码(3):CreateSessionAndLoadModel、模型加载、InitializeSession、EP创建与注册、核函数注册、模型编译与优化
彻底梳理onnxruntime代码(3):CreateSessionAndLoadModel、模型加载、InitializeSession、EP创建与注册、核函数注册、模型编译与优化
2026-01-05 11:31:52
705
原创 彻底梳理onnxruntime代码(2): sessionOptions.AppendExecutionProvider、加载后端库、注册核函数
彻底梳理onnxruntime代码(2): sessionOptions.AppendExecutionProvider、加载后端库、注册核函数
2026-01-05 11:29:22
910
原创 彻底梳理onnxruntime代码(1):ortApis代码流程、C与C++接口的关系、怎么获取OrtApiBase结构体
彻底梳理onnxruntime代码(1):ortApis代码流程、C与C++接口的关系、怎么获取OrtApiBase结构体
2026-01-05 11:28:04
869
原创 Transformer彻底剖析(5):带掩码的多头自注意力与多头编解码注意力、三个注意力模块有什么区别,作用分别是什么
Transformer彻底剖析(5):带掩码的多头自注意力与多头编解码注意力
2025-12-21 08:57:00
916
原创 一个由代码规范性导致的bug:结构体没有memset导致的Segmentation fault (core dumped)
一个由代码规范性导致的bug:结构体没有memset导致的Segmentation fault (core dumped)
2025-12-17 14:34:44
265
原创 Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力
Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力
2025-12-12 17:21:00
1073
原创 Transformer彻底剖析(1):GPT中的Transformer架构
Transformer彻底剖析(1):GPT中的Transformer架构
2025-12-06 14:22:53
1062
原创 Transformer彻底剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题
Transformer细节剖析(10): Transformer中用嵌入矩阵的转置作为线性层参数 的问题
2025-11-29 15:34:57
275
原创 sherpa-onnx实现ASR(语音转文字)和 TTS(文字转语音)
sherpa-onnx 是开源项目,由 k2‑fsa 组织维护,定位为 “部署框架”中 sherpa 的一个子项目。它的核心目标是:支持“语音处理”相关任务(如:语音识别/ASR、语音合成/TTS、说话人识别/Diarization、VAD、关键词唤醒、语言识别等)在多种设备/平台上本地运行,而无需联网。它使用的是 ONNX 格式模型 + ONNX Runtime 作为推理引擎,从而具备跨平台、较好兼容性的特点。K2 FSA+1。
2025-10-28 13:58:56
1834
原创 Triton inference server自定义C++ backend流程
Triton inference server自定义C++ backend流程介绍
2025-06-20 14:59:32
840
原创 triton inference server的backend插件机制代码流程梳理、模型加载代码梳理
triton inference server代码流程梳理、模型加载代码梳理
2025-06-20 14:57:56
1403
原创 Triton server的部署、构建、backend插件机制代码梳理、模型加载、自定义C++backend流程
Triton inference server的部署、构建、backend机制代码详细梳理、模型加载过程、自定义C++backend流程.
2025-06-19 15:12:02
294
原创 VSCode: CreateProcessW failed error:2xx:xx;xx] > posix_spawn: No such file or directory>
VSCode: CreateProcessW failed error:2xx:xx;xx] > posix_spawn: No such file or directory>
2025-06-09 14:37:19
161
原创 简单记录什么是UMD/KMD:UMD就是动态链接库;KMD就是.ko内核驱动模块
简单记录什么是UMD/KMD:UMD就是动态链接库;KMD就是.ko内核驱动模块
2025-06-05 10:12:22
2575
原创 深度学习算法模型概念整理----模型量化、校准、模型蒸馏、算子、算子融合
深度学习算法模型的几个概念整理----模型量化、校准、模型蒸馏、算子、算子融合。
2025-05-26 17:46:56
1466
2
瑞芯微RV1126开发板算法移植说明文档-环境搭建-opencv交叉编译-C++推理代码-yolov5算法移植-分类算法移植-人脸检测识别算法移植
2025-01-16
pytorch学习视频百度网盘链接.txt
2020-02-23
ndjpnladcallmjemlbaebfadecfhkepb.zip
2020-08-04
2020-07-24-21-20-52-download-P3X-OneNote-2020.10.105.AppImage
2020-08-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅