Ollama 环境变量详解

最新推荐文章于 2025-04-11 00:59:18 发布

瘸

最新推荐文章于 2025-04-11 00:59:18 发布

阅读量2.5k

点赞数 4

文章标签： linux 运维服务器 llama 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48843534/article/details/144186363

版权

Environment="OLLAMA_HOST=0.0.0.0:11434"
解释：监听地址和端口 0.0.0.0是对IP没有限制
Environment="PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games"
解释：定义可执行文件的搜索路径
Environment="OLLAMA_SCHED_SPREAD=true"
解释：调用分散模式多显卡的情况处理多并发的情况下可以减少时间
Environment="OLLAMA_NUM_PARALLEL=15"
解释：最大线程数，同时允许的最大处理并非数
Environment="OLLAMA_MAX_LOADED_MODELS=1"
解释：最大模型数，同时可以加载最多几个模型（我三张显卡的情况 llama3 70B，和一个27B并行建议1-2）
Environment="OLLAMA_MODELS=/mnt/rayse/files/ollama/models"
解释：模型存储路径
Environment="OLLAMA_KEEP_ALIVE=1h"
解释：模型加载后保留的时间，超过1小时，就卸载了，就要从新加载模型。
ExecStart=/usr/bin/ollama serve
解释：启动服务的指令
User=ollama
解释：指定运行服务的用户，服务将以 ollama 用户的身份运行
Group=ollama
解释：指定运行服务的用户组，服务将属于 ollama 用户组。
Restart=always
解释：配置服务异常停止后的自动重启
RestartSec=3
解释：设置服务停止后重新启动的时间间隔
Environment="CUDA_VISIBLE_DEVICES=0,1
解释：在多张显卡的情况下只用显卡0和显卡1进行运行服务。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。