要在使用 vllm serve
命令时调用特定的 LoRA 模块(如 lora1
和 lora2
),您需要在启动服务器时通过 --lora-modules
参数指定每个 LoRA 模块的名称和路径。以下是具体的步骤和示例:
-
启动 vLLM 服务器并启用 LoRA:
使用vllm serve
命令启动服务器,并添加--enable-lora
参数以启用 LoRA 支持。然后,使用--lora-modules
参数指定每个 LoRA 模块的名称和路径。vllm serve meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules lora1=/path/to/lora1 lora2=/path/to/lora2
请将
/path/to/lora1
和/path/to/lora2
替换为您的 LoRA 模块的实际路径。 -
通过 API 调用 LoRA 模块:
启动服务器后,您可以通过发送 API 请求来调用特定的 LoRA 模块。在请求中,您可以通过model
参数指定要使用的 LoRA 模块。例如,如果您想要调用
lora1
模块,可以发送以下请求:curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "lora1", "prompt": "Your prompt here", "max_tokens": 50, "temperature": 0 }' | jq
同样地,如果您想要调用
lora2
模块,只需将"model": "lora1"
替换为"model": "lora2"
。 -
动态加载和卸载 LoRA 模块:
vLLM 服务器还支持在运行时动态加载和卸载 LoRA 模块。这可以通过专门的 API 端点实现。-
加载 LoRA 模块:
curl -X POST http://localhost:8000/v1/load_lora_adapter \ -H "Content-Type: application/json" \ -d '{ "lora_name": "lora1", "lora_path": "/path/to/lora1" }'
-
卸载 LoRA 模块:
curl -X POST http://localhost:8000/v1/unload_lora_adapter \ -H "Content-Type: application/json" \ -d '{ "lora_name": "lora1" }'
-
这些步骤展示了如何在 vLLM 服务器中初始化和调用 LoRA 模块。您可以根据需要调整路径和参数,以适应您的具体应用场景。