吞花卧酒-CSDN博客

原创 70B 模型在 vLLM 上的最优并发区间分析

本文分析了70B参数大模型MetaX-DeepSeek-R1-70B在vLLM推理引擎下的性能表现。测试采用4×32GB GPU环境，固定输入/输出长度各1024 tokens。结果显示系统在5-10 req/s区间达到最优平衡：输出吞吐稳定在679-682 tok/s（接近峰值），平均首Token延迟3.3-13.1秒，P99延迟5.3-23.6秒，成功率100%。超过20 req/s时，首Token延迟激增至40秒，用户体验显著下降。建议通过限流控制并发，并启用chunked prefill等优化措施。

2025-09-11 11:10:07 740

原创 vLLM 并发性能测试指南

本指南详细介绍了vLLM模型并发性能测试的全流程。主要内容包括：1) 准备工作，包括硬件配置、软件依赖和vLLM服务启动；2) 并发测试脚本编写与执行，提供完整脚本示例；3) 结果分析与可视化指导，包含QPS、延迟等关键指标；4) 高级测试建议和常见问题解决方案。通过系统测试可获得模型最佳吞吐点、稳定工作区间和性能极限等关键数据。指南适用于70B大模型测试，配有详细命令和代码片段，帮助用户全面评估vLLM服务的并发处理能力。

2025-09-10 23:03:39 1098

原创解决 Matplotlib 中文显示问题的详细指南

本文提供了解决 Matplotlib 中文显示问题的完整指南。首先介绍了如何检查系统中已安装的中文字体，包括使用 fc-list 命令和 Python 代码检查。然后详细说明了三种设置 Matplotlib 使用中文字体的方法：配置字体参数、重建字体缓存以及直接指定字体文件路径。文章还列出了常见问题及其解决方案，如字体名称不匹配、缓存未更新和虚拟环境问题。最后提供了一个完整的示例代码，展示了如何在实际绘图中应用这些设置。通过遵循这些步骤，用户可以确保 Matplotlib 图表正确显示中文内容。

2025-09-09 17:26:06 569

原创模型并发性能压测指南

大模型并发性能压测指南摘要本文档提供了一套系统化的LLM性能压测方法，重点介绍如何利用vLLM的benchmark_throughput.py脚本进行多维度性能评估。主要内容包括：压测矩阵设计：提出18组典型测试场景，覆盖从短对话(128/64 tokens)到超长文本处理(4096/128 tokens)的各种业务需求自动化方案：提供Shell脚本实现自动化测试流程，包含参数配置、结果保存和冷却机制结果分析：指导如何收集吞吐量、延迟等关键指标，建议重点关注最大吞吐量、长文本处理能力和并发扩展性等维

2025-09-08 17:51:26 2286

原创使用 vLLM 加载大模型（如 DeepSeek-R1-Distill-Llama-70B）的完整指南

本文提供了使用vLLM加载70B大模型的完整指南，涵盖环境准备、常见错误解决和性能优化。关键内容包括：必须使用8卡张量并行(TP=8)才能加载模型；需明确指定输入/输出长度以避免脚本错误；成功测试显示系统吞吐量达920 tokens/s，每卡显存占用约16GB。建议后续可尝试量化、调整批处理大小等优化手段。该配置特别适合对吞吐量要求高、延迟要求相对宽松的离线推理场景。

2025-09-08 16:21:07 1686

原创 vLLM 框架的性能基准测试（Benchmarking）和离线推理（Offline Inference）

本文介绍了vLLM框架性能测试和离线推理的核心功能文件。其中，benchmark_throughput.py用于测量高并发吞吐量，benchmark_serving.py模拟在线服务压力测试，是最重要的两个性能评估工具。offline_inference.py支持批量推理任务，benchmark_mutlimoda.py则针对多模态模型测试。其他辅助文件如benchmark_utils.py和torch_profile_utils.py提供通用工具函数和性能分析功能。这些文件共同构成了vLLM框架在不同场景

2025-09-08 12:16:29 1574

m0_37455071的博客

原创 70B 模型在 vLLM 上的最优并发区间分析

原创 vLLM 并发性能测试指南

原创解决 Matplotlib 中文显示问题的详细指南

原创模型并发性能压测指南

原创使用 vLLM 加载大模型（如 DeepSeek-R1-Distill-Llama-70B）的完整指南

原创 vLLM 框架的性能基准测试（Benchmarking）和离线推理（Offline Inference）

空空如也

空空如也

原创 70B 模型在 vLLM 上的最优并发区间分析

原创 vLLM 并发性能测试指南

原创 解决 Matplotlib 中文显示问题的详细指南

原创 模型并发性能压测指南

原创 使用 vLLM 加载大模型（如 DeepSeek-R1-Distill-Llama-70B）的完整指南

原创 vLLM 框架的性能基准测试（Benchmarking）和离线推理（Offline Inference）

空空如也

空空如也

原创解决 Matplotlib 中文显示问题的详细指南

原创模型并发性能压测指南

原创使用 vLLM 加载大模型（如 DeepSeek-R1-Distill-Llama-70B）的完整指南