利用vLLM进行开源大模型本地部署(待继续刷新)

关于vllm

机器环境

  • 系统:linux ubuntu
  • GPU:RTX 4090D(24GB) * 1(单卡)
  • miniconda:conda3
  • python:3.9/3.10

本地部署操作步骤(部署Meta-Llama3-8b):

  1. 下载模型到linux机器,可以参考开源大模型(LLM)下载-CSDN博客
  2. 设置conda环境(新建conda环境,并激活)
  • conda create -n llama3-8b python=3.9 -y
  • conda activate llama3-8b 
     3. 安装vllm: pip install vllm
     4. 运行模型(注意模型参数大的话,需要更大内存的gpu,否则本地运行不起来)

     python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Meta-Llama3-8b --trust-remote-code --port 6006

其中/root/autodl-tmp/Meta-Llama3-8b 是模型所在的文件夹路径

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
开源模型本地化部署是指将开源的大型模型部署到本地环境中,以便在本地进行模型推理和应用开发。这种部署方式可以提供更高的性能和更好的隐私保护,同时也可以避免依赖于云服务的限制和成本。 在进行开源模型本地化部署时,通常需要以下几个步骤: 1. 模型选择:选择适合自己需求的开源模型,例如BERT、GPT等。这些模型通常在公开的代码库中可以找到。 2. 模型训练:根据自己的数据集和任务需求,对选择的模型进行训练。这一步需要有一定的机器学习和深度学习知识,并且需要有足够的计算资源。 3. 模型转换:将训练好的模型转换为适合本地部署的格式。通常情况下,需要将模型转换为常见的推理引擎支持的格式,如ONNX、TensorFlow Lite等。 4. 部署环境搭建:搭建本地的部署环境,包括安装相应的推理引擎、依赖库和硬件设备(如GPU)等。这一步需要根据具体的模型部署需求进行配置。 5. 模型部署:将转换好的模型加载到部署环境中,并编写相应的代码进行模型推理。这一步需要根据具体的推理引擎和编程语言进行操作。 6. 性能优化:根据实际需求,对模型进行性能优化,如模型量化、剪枝等技术,以提高模型的推理速度和资源利用率。 7. 测试和调优:对部署好的模型进行测试和调优,确保模型在本地环境中的性能和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值