vllm框架大模型部署笔记

举例:

export CUDA_VISIBLE_DEVICES=0,1
nohup python3 -m vllm.entrypoints.openai.api_server --served-model-name deepseek-v2-lite --model /mnt/data2/melan/model/DeepSeek-V2-Lite-Chat --host 10.4.118.205 --port 8301 --tensor-parallel-size 2 --gpu-memory-utilization 0.9 --enable-prefix-caching --trust-remote-code > logs/run_deepseek_v2_lite.log 2>&1 &
echo $! > pids/run_deepseek_v2_lite.pid

 详解:

export CUDA_VISIBLE_DEVICES=0,1
  • 解释:这行命令设置环境变量 CUDA_VISIBLE_DEVICES,将其值设为 0,1
  • 作用:指定程序只能使用编号为 0 和 1 的 GPU。这对于多 GPU 系统非常有用,可以控制程序使用哪些 GPU。
nohup python3 -m vllm.entrypoints.openai.api_server --served-model-name deepseek-v2-lite --model /mnt/data2/melan/model/DeepSeek-V2-Lite-Chat --host 10.4.118.205 --port 8301 --tensor-parallel-size 2 --gpu-memory-utilization 0.9 --enable-prefix-caching --trust-remote-code > logs/run_deepseek_v2_lite.log 2>&1 &

解释:

  • nohup:表示忽略挂起信号(SIGHUP),即使终端关闭,程序也会继续运行。
  • python3 -m vllm.entrypoints.openai.api_server:使用 Python 解释器运行模块 vllm.entrypoints.openai.api_server
  • --served-model-name deepseek-v2-lite:指定服务的模型名称为 deepseek-v2-lite
  • --model /mnt/data2/melan/model/DeepSeek-V2-Lite-Chat:指定模型文件路径。
  • --host 10.4.118.205:指定服务器主机地址。
  • --port 8301:指定服务器端口号。
  • --tensor-parallel-size 2:指定张量并行度为 2。
  • --gpu-memory-utilization 0.9:指定 GPU 内存利用率为 90%。
  • --enable-prefix-caching:启用前缀缓存。
  • --trust-remote-code:信任远程代码。
  • > logs/run_deepseek_v2_lite.log 2>&1:将标准输出和标准错误重定向到日志文件 logs/run_deepseek_v2_lite.log
  • &:将命令放入后台运行。
echo $! > pids/run_deepseek_v2_lite.pid
  1. $!:获取最后一个后台进程的进程 ID (PID)。
  2. > pids/run_deepseek_v2_lite.pid:将 PID 写入文件 pids/run_deepseek_v2_lite.pid
  • 作用:通过存储进程 ID,可以方便地管理和终止后台运行的程序。

 注意:张量并行计算的并行度通常需要与指定的 GPU 数量保持一致。这是因为张量并行计算的核心思想是将模型的张量(如权重矩阵)分割成多个部分,并将这些部分分布到多个 GPU 上进行并行计算。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
将大模型glm3部署笔记本本地CPU可能会面临一些挑战。首先,大模型意味着它的大小和复杂度较大,在本地的笔记本CPU上可能无法完全支持。因此,在部署之前,我们需要确保笔记本的处理能力和内存足以支持该模型的运行。 在部署模型glm3之前,我们还需要提前进行一些准备工作。首先,我们需要安装和配置适当的软件环境,例如R或Python的科学计算库。其次,我们需要下载并导入所需的数据集和训练好的模型参数。 在将大模型glm3部署笔记本本地CPU上时,我们需要注意以下几点: 1. 内存管理:由于大模型的复杂性和大小,可能会占用较大的内存空间。因此,我们需要注意内存的管理,确保足够的内存可用,并及时释放不需要的内存。 2. CPU资源分配:大模型的训练和推断过程可能会占用大量的CPU资源。在部署之前,我们可以通过限制其他应用程序的资源使用来提供更多的CPU资源给模型运行。 3. 模型优化:为了在本地CPU上更高效地运行大模型glm3,我们可以考虑一些模型优化策略,例如模型压缩、并行计算等。这些策略可以帮助减少模型的大小和计算复杂度,提高模型的性能。 4. 计算效率:大模型的训练和推断过程需要大量的计算资源。在部署之前,我们可以尝试使用更高效的算法或技术来减少计算的时间和资源消耗。 总结而言,将大模型glm3部署笔记本本地CPU需要我们考虑资源管理、模型优化和计算效率等方面。在合理利用资源和采用适当的优化策略下,我们可以在本地CPU上成功部署和运行大模型glm3。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值