OpenAI兼容服务器
vLLM 提供了一个实现了 OpenAI 的 Completions 和 Chat API 的 HTTP 服务器。
您可以通过 Python 或 Docker 启动该服务器:
python -m vLLm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-hf --dtype float32 --api-key token-abc123
要调用服务器,您可以使用官方的 OpenAI Python 客户端库或其他任何 HTTP 客户端。
from openai import OpenAI
client = OpenAI(
base_url