ollama多显卡下多服务部署

最新推荐文章于 2025-04-11 15:05:40 发布

分类保

最新推荐文章于 2025-04-11 15:05:40 发布

阅读量7.8k

点赞数 2

文章标签： linux 算法深度学习 llama 人工智能

原文链接：https://github.com/songquanpeng/one-api/issues/1357

版权

记录下ollama在多显卡下的多服务部署

ollama启动服务时，默认是11434端口，不支持传port参数，例如该启动方法，CUDA_VISIBLE_DEVICES=0 nohup python main.py --listen 0.0.0.0 --port 7860 > log.log 2>&1 &，
为了充分利用显卡资源，同一个ollama服务下，同时在两张显卡上各启一个服务来标注。方法如下

CUDA_VISIBLE_DEVICES=0 nohup ollama serve 2>&1 >>log_gpu0.log &，使用默认11434端口部署一个。
此外，启动ollama服务时，执行，export OLLAMA_HOST=0.0.0.0:6006，然后执行CUDA_VISIBLE_DEVICES=1 nohup ollama serve 2>&1 >>log_gpu1.log &.
如上即可启两个服务。
参考来源：https://github.com/songquanpeng/one-api/issues/1357

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。