ollama serve 参数的讲解

Ollama 可能会自动选择系统中可用的 GPU 来运行模型,或者它是通过环境变量来管理设备选择的。

如何更好地使用 GPU

1. 使用环境变量配置 GPU

要确保 Ollama 使用 GPU,你可以通过以下环境变量来配置 GPU 相关的设置:

  • CUDA_VISIBLE_DEVICES: 用于指定使用哪个 GPU。你可以通过设置此变量来选择一个或多个 GPU。例如,如果你有多个 GPU,但只想使用第一个 GPU,你可以这样设置:
export CUDA_VISIBLE_DEVICES=0

然后启动 ollama serve

ollama serve
  • OLLAMA_DEBUG: 如果你想查看调试信息(例如,确认是否正确使用 GPU),可以设置 OLLAMA_DEBUG=1
export OLLAMA_DEBUG=1
2. 控制并发和内存使用
  • OLLAMA_NUM_PARALLEL: 设置最大并发请求数。对于需要较高 GPU 吞吐量的环境,适当增加这个值可以更好地利用 GPU 资源。默认值通常为 1,但如果有足够的 GPU 内存,可以增加到 4 或更高。
export OLLAMA_NUM_PARALLEL=4
  • OLLAMA_MAX_LOADED_MODELS: 设置每个 GPU 上最大可加载的模型数量。如果你有多个大型模型,可以调整此设置以便让更多的模型驻留在 GPU 内存中。
export OLLAMA_MAX_LOADED_MODELS=2
  • OLLAMA_KEEP_ALIVE: 设置模型在内存中的保持时间。这个值可以影响模型的加载和卸载频率,从而影响 GPU 的负载和性能。默认是 “5m”,即 5 分钟。如果你希望模型长时间保持在内存中,可以将其设置为更长的时间。
export OLLAMA_KEEP_ALIVE="10m"
3. 配置模型路径和最大队列数
  • OLLAMA_MODELS: 如果你的模型存储在非默认路径,可以使用此环境变量来指定模型路径。
export OLLAMA_MODELS=/path/to/your/models
  • OLLAMA_MAX_QUEUE: 设置最大请求队列长度。如果你预计有很多并发请求,增加这个数值可以让系统处理更多的请求。
export OLLAMA_MAX_QUEUE=10

4. 启动服务

通过设置好环境变量后,可以直接启动 ollama serve

ollama serve
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MonkeyKing.sun

对你有帮助的话,可以打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值