Ollama 如何让模型保持在内存或卸载

最新推荐文章于 2025-04-11 00:59:18 发布

田猿笔记

最新推荐文章于 2025-04-11 00:59:18 发布

阅读量7.8k

点赞数 5

分类专栏：人工智能和大数据文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/canduecho/article/details/140647634

版权

人工智能和大数据专栏收录该内容

15 篇文章

订阅专栏

Ollama 默认情况下，模型会在内存中保存 5 分钟，然后才会卸载。如果您向 LLM 发出大量请求，这可以缩短响应时间。但是，您可能希望在 5 分钟过去之前释放内存，或者无限期地加载模型。使用参数keep_alive和/api/generateAPI/api/chat端点来控制模型在内存中保留的时间。
该keep_alive参数可以设置为：

持续时间字符串（例如“10m”或“24h”）
秒数（例如 3600）
任何负数都会使模型保持在内存中（例如 -1 或“-1m”）
“0”将在生成响应后立即卸载模型
例如，要预加载模型并将其保留在内存中，请使用：

curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": -1}'

要卸载模型并释放内存使用：

curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": 0}'

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

田猿笔记 写文章不容易，希望大家小小打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。