ollama serve 参数的讲解

最新推荐文章于 2025-04-12 20:16:59 发布

MonkeyKing.sun

最新推荐文章于 2025-04-12 20:16:59 发布

阅读量3.7k

点赞数 5

文章标签：人工智能 linux 运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunyuhua_keyboard/article/details/145566580

版权

Ollama 可能会自动选择系统中可用的 GPU 来运行模型，或者它是通过环境变量来管理设备选择的。

如何更好地使用 GPU

1. 使用环境变量配置 GPU

要确保 Ollama 使用 GPU，你可以通过以下环境变量来配置 GPU 相关的设置：

CUDA_VISIBLE_DEVICES: 用于指定使用哪个 GPU。你可以通过设置此变量来选择一个或多个 GPU。例如，如果你有多个 GPU，但只想使用第一个 GPU，你可以这样设置：

export CUDA_VISIBLE_DEVICES=0

然后启动 ollama serve：

ollama serve

OLLAMA_DEBUG: 如果你想查看调试信息（例如，确认是否正确使用 GPU），可以设置 OLLAMA_DEBUG=1：

export OLLAMA_DEBUG=1

2. 控制并发和内存使用

OLLAMA_NUM_PARALLEL: 设置最大并发请求数。对于需要较高 GPU 吞吐量的环境，适当增加这个值可以更好地利用 GPU 资源。默认值通常为 1，但如果有足够的 GPU 内存，可以增加到 4 或更高。

export OLLAMA_NUM_PARALLEL=4

OLLAMA_MAX_LOADED_MODELS: 设置每个 GPU 上最大可加载的模型数量。如果你有多个大型模型，可以调整此设置以便让更多的模型驻留在 GPU 内存中。

export OLLAMA_MAX_LOADED_MODELS=2

OLLAMA_KEEP_ALIVE: 设置模型在内存中的保持时间。这个值可以影响模型的加载和卸载频率，从而影响 GPU 的负载和性能。默认是 “5m”，即 5 分钟。如果你希望模型长时间保持在内存中，可以将其设置为更长的时间。

export OLLAMA_KEEP_ALIVE="10m"

3. 配置模型路径和最大队列数

OLLAMA_MODELS: 如果你的模型存储在非默认路径，可以使用此环境变量来指定模型路径。

export OLLAMA_MODELS=/path/to/your/models

OLLAMA_MAX_QUEUE: 设置最大请求队列长度。如果你预计有很多并发请求，增加这个数值可以让系统处理更多的请求。

export OLLAMA_MAX_QUEUE=10

4. 启动服务

通过设置好环境变量后，可以直接启动 ollama serve：

ollama serve

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

MonkeyKing.sun 对你有帮助的话，可以打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。