【大模型部署实战】Ollama如何保持模型常驻内存，或者显存，如何立刻释放

AI智韵

已于 2025-02-17 15:37:57 修改

阅读量1.2k

点赞数

分类专栏：大模型论文翻译与实战文章标签： chrome 前端

于 2025-02-15 09:17:05 首次发布

不能复制，转发

本文链接：https://blog.csdn.net/m0_47867638/article/details/145646201

版权

大模型论文翻译与实战专栏收录该内容

23 篇文章 ¥19.90 ¥99.00

订阅专栏

Ollama 是一个用于管理和运行大语言模型的框架，默认情况下，模型在生成响应后会在内存中保留 5 分钟。这一设计旨在提高响应速度，尤其是在多次请求的情况下。然而，用户可能希望根据需求调整这一行为，以便更好地管理内存使用。

保持模型在内存中的方法

要保持模型在内存中，Ollama 提供了一个名为 keep_alive 的参数。用户可以通过 API 请求来设置该参数，以控制模型在内存中的保留时间。以下是可用的设置选项：

持续时间字符串：例如 "10m"（10分钟）或 "24h"（24小时）。
秒数：例如 3600（1小时）。
负数：例如 -1 或 "-1m"，这将使模型无限期地保留在内存中。
零：设置为 0 将使模型在生成响应后立即卸载。

示例命令

要预加载模型并使其

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI智韵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。