- 博客(6)
- 收藏
- 关注
原创 70B 模型在 vLLM 上的最优并发区间分析
本文分析了70B参数大模型MetaX-DeepSeek-R1-70B在vLLM推理引擎下的性能表现。测试采用4×32GB GPU环境,固定输入/输出长度各1024 tokens。结果显示系统在5-10 req/s区间达到最优平衡:输出吞吐稳定在679-682 tok/s(接近峰值),平均首Token延迟3.3-13.1秒,P99延迟5.3-23.6秒,成功率100%。超过20 req/s时,首Token延迟激增至40秒,用户体验显著下降。建议通过限流控制并发,并启用chunked prefill等优化措施。
2025-09-11 11:10:07
740
原创 vLLM 并发性能测试指南
本指南详细介绍了vLLM模型并发性能测试的全流程。主要内容包括:1) 准备工作,包括硬件配置、软件依赖和vLLM服务启动;2) 并发测试脚本编写与执行,提供完整脚本示例;3) 结果分析与可视化指导,包含QPS、延迟等关键指标;4) 高级测试建议和常见问题解决方案。通过系统测试可获得模型最佳吞吐点、稳定工作区间和性能极限等关键数据。指南适用于70B大模型测试,配有详细命令和代码片段,帮助用户全面评估vLLM服务的并发处理能力。
2025-09-10 23:03:39
1098
原创 解决 Matplotlib 中文显示问题的详细指南
本文提供了解决 Matplotlib 中文显示问题的完整指南。首先介绍了如何检查系统中已安装的中文字体,包括使用 fc-list 命令和 Python 代码检查。然后详细说明了三种设置 Matplotlib 使用中文字体的方法:配置字体参数、重建字体缓存以及直接指定字体文件路径。文章还列出了常见问题及其解决方案,如字体名称不匹配、缓存未更新和虚拟环境问题。最后提供了一个完整的示例代码,展示了如何在实际绘图中应用这些设置。通过遵循这些步骤,用户可以确保 Matplotlib 图表正确显示中文内容。
2025-09-09 17:26:06
569
原创 模型并发性能压测指南
大模型并发性能压测指南摘要 本文档提供了一套系统化的LLM性能压测方法,重点介绍如何利用vLLM的benchmark_throughput.py脚本进行多维度性能评估。主要内容包括: 压测矩阵设计:提出18组典型测试场景,覆盖从短对话(128/64 tokens)到超长文本处理(4096/128 tokens)的各种业务需求 自动化方案:提供Shell脚本实现自动化测试流程,包含参数配置、结果保存和冷却机制 结果分析:指导如何收集吞吐量、延迟等关键指标,建议重点关注最大吞吐量、长文本处理能力和并发扩展性等维
2025-09-08 17:51:26
2286
原创 使用 vLLM 加载大模型(如 DeepSeek-R1-Distill-Llama-70B)的完整指南
本文提供了使用vLLM加载70B大模型的完整指南,涵盖环境准备、常见错误解决和性能优化。关键内容包括:必须使用8卡张量并行(TP=8)才能加载模型;需明确指定输入/输出长度以避免脚本错误;成功测试显示系统吞吐量达920 tokens/s,每卡显存占用约16GB。建议后续可尝试量化、调整批处理大小等优化手段。该配置特别适合对吞吐量要求高、延迟要求相对宽松的离线推理场景。
2025-09-08 16:21:07
1686
原创 vLLM 框架的性能基准测试(Benchmarking)和离线推理(Offline Inference)
本文介绍了vLLM框架性能测试和离线推理的核心功能文件。其中,benchmark_throughput.py用于测量高并发吞吐量,benchmark_serving.py模拟在线服务压力测试,是最重要的两个性能评估工具。offline_inference.py支持批量推理任务,benchmark_mutlimoda.py则针对多模态模型测试。其他辅助文件如benchmark_utils.py和torch_profile_utils.py提供通用工具函数和性能分析功能。这些文件共同构成了vLLM框架在不同场景
2025-09-08 12:16:29
1574
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅