Ollama
可能会自动选择系统中可用的 GPU 来运行模型,或者它是通过环境变量来管理设备选择的。
如何更好地使用 GPU
1. 使用环境变量配置 GPU
要确保 Ollama
使用 GPU,你可以通过以下环境变量来配置 GPU 相关的设置:
CUDA_VISIBLE_DEVICES
: 用于指定使用哪个 GPU。你可以通过设置此变量来选择一个或多个 GPU。例如,如果你有多个 GPU,但只想使用第一个 GPU,你可以这样设置:
export CUDA_VISIBLE_DEVICES=0
然后启动 ollama serve
:
ollama serve
OLLAMA_DEBUG
: 如果你想查看调试信息(例如,确认是否正确使用 GPU),可以设置OLLAMA_DEBUG=1
:
export OLLAMA_DEBUG=1
2. 控制并发和内存使用
OLLAMA_NUM_PARALLEL
: 设置最大并发请求数。对于需要较高 GPU 吞吐量的环境,适当增加这个值可以更好地利用 GPU 资源。默认值通常为 1,但如果有足够的 GPU 内存,可以增加到 4 或更高。
export OLLAMA_NUM_PARALLEL=4
OLLAMA_MAX_LOADED_MODELS
: 设置每个 GPU 上最大可加载的模型数量。如果你有多个大型模型,可以调整此设置以便让更多的模型驻留在 GPU 内存中。
export OLLAMA_MAX_LOADED_MODELS=2
OLLAMA_KEEP_ALIVE
: 设置模型在内存中的保持时间。这个值可以影响模型的加载和卸载频率,从而影响 GPU 的负载和性能。默认是 “5m”,即 5 分钟。如果你希望模型长时间保持在内存中,可以将其设置为更长的时间。
export OLLAMA_KEEP_ALIVE="10m"
3. 配置模型路径和最大队列数
OLLAMA_MODELS
: 如果你的模型存储在非默认路径,可以使用此环境变量来指定模型路径。
export OLLAMA_MODELS=/path/to/your/models
OLLAMA_MAX_QUEUE
: 设置最大请求队列长度。如果你预计有很多并发请求,增加这个数值可以让系统处理更多的请求。
export OLLAMA_MAX_QUEUE=10
4. 启动服务
通过设置好环境变量后,可以直接启动 ollama serve
:
ollama serve