一、前言
通过前面几章的实践,相信大家已经成功地搭建了一个功能齐全且性能良好的vllm API服务。现在,在充裕的服务器资源配置下,接下来可以继续进行一些优化工作。
二、术语
2.1.并行推理
是指在深度学习中使用多个计算设备(如GPU或TPU)同时进行推理任务的过程。
2.2. Gevent
是一个基于协程的Python网络库,通过利用协程的非阻塞特性,可以处理大量并发请求而无需创建多个线程或进程。
三、技术实现
以下内容针对单机多卡的情况
3.1. 查看GPU个数
nvidia-smi --query-gpu=count --format=csv,noheader
3.2. 优化vllm配置
python -m vllm.entrypoints.api_server --model /data/model/qwen-7b-chat --swap-space 26 --disable-log-requests --trust-remote-code --max-num-seqs 256 --host