ollama多显卡下多服务部署

记录下ollama在多显卡下的多服务部署

  1. ollama启动服务时,默认是11434端口,不支持传port参数,例如该启动方法,CUDA_VISIBLE_DEVICES=0 nohup python main.py --listen 0.0.0.0 --port 7860 > log.log 2>&1 &,
  2. 为了充分利用显卡资源,同一个ollama服务下,同时在两张显卡上各启一个服务来标注。方法如下
  • CUDA_VISIBLE_DEVICES=0 nohup ollama serve 2>&1 >>log_gpu0.log &,使用默认11434端口部署一个。
  • 此外,启动ollama服务时,执行,export OLLAMA_HOST=0.0.0.0:6006,然后执行CUDA_VISIBLE_DEVICES=1 nohup ollama serve 2>&1 >>log_gpu1.log &.
  • 如上即可启两个服务。
  • 参考来源:https://github.com/songquanpeng/one-api/issues/1357
### 部署DeepSeek模型并配置多GPU负载均衡 为了在Windows系统上使用Ollama部署DeepSeek模型并配置多显卡负载均衡,可以遵循以下方法: #### 安装依赖环境 确保安装了必要的Python库和其他工具。对于`modelscope`中的`snapshoT_download`函数用于下载DeepSeek模型[^1]。 ```bash pip install modelscope ollama torch transformers accelerate ``` #### 下载模型 利用`modelscope`提供的API来获取所需的DeepSeek模型文件。由于该过程可能耗时较长(大约10到20分钟),建议提前规划好网络状况和存储空间。 ```python from modelscope import snapshot_download downloaded_model_path = snapshot_download('DeepSeek', revision='v1.0') print(f'Model downloaded at {downloaded_model_path}') ``` #### 设置多GPU支持 通过PyTorch的内置功能以及`accelerate`库的支持,在多个GPU之间分配工作量以提高效率。这一步骤特别重要当处理大型预训练语言模型如DeepSeek的不同版本时[^2]。 ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer from accelerate import Accelerator accelerator = Accelerator() device = accelerator.device tokenizer = AutoTokenizer.from_pretrained(downloaded_model_path) model = AutoModelForCausalLM.from_pretrained(downloaded_model_path).to(device) # Wrap the model with DataParallel or DistributedDataParallel based on your setup. if torch.cuda.device_count() > 1: print("Let's use", torch.cuda.device_count(), "GPUs!") # dim = 0 [batch first] model = torch.nn.DataParallel(model) model.eval() @torch.no_grad() def inference(input_text): inputs = tokenizer(input_text, return_tensors="pt").to(device) outputs = model.generate(**inputs) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result ``` 这段代码展示了如何加载已经下载好的DeepSeek模型,并将其设置为可以在多张NVIDIA GPU上运行的形式。注意这里假设读者已经有了适当数量和支持CUDA计算能力的图形处理器。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值