记录下ollama在多显卡下的多服务部署
- ollama启动服务时,默认是11434端口,不支持传port参数,例如该启动方法,CUDA_VISIBLE_DEVICES=0 nohup python main.py --listen 0.0.0.0 --port 7860 > log.log 2>&1 &,
- 为了充分利用显卡资源,同一个ollama服务下,同时在两张显卡上各启一个服务来标注。方法如下
- CUDA_VISIBLE_DEVICES=0 nohup ollama serve 2>&1 >>log_gpu0.log &,使用默认11434端口部署一个。
- 此外,启动ollama服务时,执行,export OLLAMA_HOST=0.0.0.0:6006,然后执行CUDA_VISIBLE_DEVICES=1 nohup ollama serve 2>&1 >>log_gpu1.log &.
- 如上即可启两个服务。
- 参考来源:https://github.com/songquanpeng/one-api/issues/1357