简介
vLLM是一个快速且易于使用的LLM推理和服务库。
vLLM速度很快:
- 最先进的服务吞吐量
- 使用PagedNote有效管理注意力键和值内存
- 传入请求的连续批处理
- 使用CUDA/HIP图快速执行模型
- 量化:GPTQ、AWQ、SqueezeLLM、FP8 KV缓存
- 优化的CUDA内核
vLLM灵活且易于使用:
- 与流行的拥抱脸模型无缝集成
- 高吞吐量服务于各种解码算法,包括并行采样、波束搜索等
- 分布式推理的张量并行性支持
- 流式输出
- 与OpenAI兼容的API服务器
- 支持NVIDIA GPU和AMD GPU
- (实验性)前缀缓存支持
- (实验性)Multi-lora支持
vLLM无缝支持多种拥抱脸模型,包括以下架构:
- Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)
- Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B, etc.)
- BLOOM (bigscience/bloom, bigscience/bloomz, etc.)
- ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b, etc.)
- Command-R (CohereForAI/c4ai-command-r-v01, etc.)
- DBRX (databricks/dbrx-base, databricks/dbrx-instruct etc.)
- DeciLM (Deci/DeciLM-7B, Deci/DeciLM-7B-instruct, etc.)
- Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b, etc.)
- Gemma (google/gemma-2b, google/gemma-7b, etc.)
- GPT-2 (gpt2, gpt2-xl, etc.)
- GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, etc.)
- GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.)
- GPT-NeoX (EleutherAI/gpt-neox-20b, data