开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(七)

一、前言

        通过前面几章的实践,相信大家已经成功地搭建了一个功能齐全且性能良好的vllm API服务。现在,在充裕的服务器资源配置下,接下来可以继续进行一些优化工作。


二、术语

2.1.并行推理

    是指在深度学习中使用多个计算设备(如GPU或TPU)同时进行推理任务的过程。

2.2. Gevent

    是一个基于协程的Python网络库,通过利用协程的非阻塞特性,可以处理大量并发请求而无需创建多个线程或进程。


三、技术实现

以下内容针对单机多卡的情况

3.1.  查看GPU个数

nvidia-smi --query-gpu=count --format=csv,noheader

3.2.  优化vllm配置

python -m vllm.entrypoints.api_server  --model  /data/model/qwen-7b-chat  --swap-space 26 --disable-log-requests --trust-remote-code --max-num-seqs 256 --host 0.0.0.0 --port 9000  --dtype float16 --tensor-parallel-size 2 --max-parallel-loading-workers 2  --enforce-eager 

  需要注意:

  此处调整了三个地址:

  1) --swap-space

  • 36
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开源技术探险家

以微薄之力温暖这个世界

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值