环境: vllm 0.8.5 Qwen3-235B-A22B-AWQ H20 95Gx2 问题描述: 如何对vllm模型推理框架,进行并发测试,看看能一次并发多少? 解决方案: 1. 异步并发测试脚本(基于 aiohttp) import asyncio import aiohttp import time API_URL = "http://192.168.118.13:8700/v1/chat/completions" HEADERS =