- 博客(166)
- 资源 (47)
- 收藏
- 关注
原创 大模型推理KV cache特点
从 0% 到 90% 的缓存命中率差异,意味着输入价格可以相差 3-5 倍。以 Kimi K2.5 多模态模型为例,OpenRouter 实时统计的 Kimi 官方 API 缓存命中率,通常在 85%-95% 之间波动(▶ 90% 命中缓存部分: 按缓存价 0.7 元/M tokens 计费 = 0.63 元。▶ 10% 未命中部分: 按标准价 4 元/M tokens 计费 = 0.4 元。与标准定价 4 元相比,Kimi K2.5 的实际输入价格相当于打了 25 折。
2026-03-02 19:57:23
57
原创 SLO感知的PD分离最佳配比计算SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
PD分离当前是大语言模型非常广泛使用的推理优化技术,可以独立对P/D进行部署优化, 独立优化TTFT和TPOT SLO指标。而传统的非PD分离部署,难以对P/D采用独立的优化策略,同时prefill通常优先处理导致TPOT较差。但是对于PD分离部署,一个关键的问题是难以确定在满足用户throughput和SLO需求,以及请求输入输出长度特点条件下的P/D各自的资源使用量。我们这篇论文SLO-Aware Compute Resource Provisioning for Prefill-Decode
2026-02-11 11:00:39
798
原创 sglang compile_deep_gemm
此外,需要设置环境变量SGLANG_DG_CACHE_DIR(早期版本为SGL_DG_CACHE_DIR)指定缓存目录,并且以后launch_server启动模型也要加上这个从而提升模型启动速度。python3 -m sglang.launch_server这个改成python3 -m sglang.compile_deep_gemm。按照启动模型的方式一样来启动compile_deep_gemm,例如多机仍然需要多机启动。其实只需要把模型启动命令的。这个用法比较含糊其辞。
2025-10-24 09:34:36
579
原创 DeepSeek group-limited expert routing和负载均衡
DeepSeek group-limited expert routing
2025-03-03 19:24:42
2049
原创 小波变换背景预测matlab和python, pytorch样例
Sparse deconvolution improves the resolution of live-cell super-resolution fluorescence microscopy的附件代码。
2025-02-23 21:19:58
628
原创 TensorRT Serialization assertion stdVersionRead == kSERIALIZATION_VERSION failed
[TRT] [E] IRuntime::deserializeCudaEngine: Error Code 1: Serialization (Serialization assertion stdVersionRead == kSERIALIZATION_VERSION failed.Version tag does not match. Note: Current Version: 237, Serialized Engine Version: 239
2024-10-18 12:56:18
1341
原创 RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a paramete
RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a paramete
2024-10-15 16:19:07
769
原创 大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理
针对大语言模型权重的4bit量化,除了常规的广泛使用的group-wise均匀量化,如GPTQ, AWQ等等,苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术,高通也提出了新的一种向量量化技术,其实这两种技术原理基本上是相同的
2024-09-06 10:12:49
2556
原创 Unsupported: ONNX export of convolution for kernel of unknown shape
错误提示为Caused by the value '28 defined in (%28 : Float(*, *, *, *, strides=[199692, 66564, 258, 1], requires_grad=0, device=cpu)这种问题一般出现在卷积的权重不是常规的直接的训练参数,而是从其他计算分支计算得到。这里指示了是test.py第10行引起的,也就是pad那一句导致的。这其实是底层infer shape的bug。这使得x的shape重新被完全静态确定。
2024-07-19 17:02:16
1809
原创 TP TN FP FN(true positive, false negative等)的理解
比如,你判断一件事情是阳性,但是你的判断是错的,就是false positive。第二个词positive或者negative,表明判断的内容是阳性还是阴性。第一个形容词为true, false表名这个判断是正确还是错误的。
2024-07-13 23:52:46
351
原创 Transformer 从attention到grouped query attention (GQA)
Transformer 从Attention到grouped query attention (GQA)
2024-05-28 16:38:54
2151
原创 导出LLaMA ChatGlm2等LLM模型为onnx
通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。
2023-08-05 19:15:07
7810
2
altera官方上海Quartus II时序分析相关三天培训教材练习实例_day3
2015-01-30
altera官方上海Quartus II时序分析相关三天培训教材练习实例_day2
2015-01-30
sublime text 2 3 system verilog自动补充插件
2015-02-01
altera官方上海Quartus II时序分析相关三天培训教材练习实例_day1
2015-01-30
免费高清屏幕录制软件FreeScreenVideoRecorder_3.0.45.1027
2016-11-10
深度学习 Deep Learning book, MIT, Ian Goodfellow, Aaron Courville, and Yoshua Bengio
2016-04-22
Principles of Fluorescence Spectroscopy Third Edition Joseph R Lakowicz.pdf
2017-08-13
nnImplementationV2 神经网络C++实现
2016-04-21
Programming in Parallel with CUDA A Practical Guide Richard Ansorge 2022-Cambridge-University
2025-01-25
概率分布手册Hand-book on statistical distributions for experimentalists
2018-03-01
Netron-Setup-4.5.0.zip
2020-09-12
CRLB 讲解PPT
2017-10-03
Principles of Optics 7th ed M.Born,E.Wolf.pdf 光学原理
2017-09-01
BFGS Optimization curve fitting 优化曲线拟合
2017-12-07
DeepSpeed System Optimizations Enable Training Deep Learning
2021-10-23
Practical data acquisition for instrumentation and control systems
2018-12-10
Handbook of Fluorescence Spectroscopy and Imaging
2017-11-23
Protocol Buffer sublime text 3插件
2018-08-06
伯克利 常用经典算法.zip
2019-09-04
cmake-3.17.2-win64-x64.zip
2020-05-23
伯克利 常用经典算法.pdf
2019-09-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅