Ollama 如何让模型保持在内存或卸载

Ollama 默认情况下,模型会在内存中保存 5 分钟,然后才会卸载。如果您向 LLM 发出大量请求,这可以缩短响应时间。但是,您可能希望在 5 分钟过去之前释放内存,或者无限期地加载模型。使用参数keep_alive/api/generateAPI/api/chat端点来控制模型在内存中保留的时间。
keep_alive参数可以设置为:

  • 持续时间字符串(例如“10m”或“24h”)
  • 秒数(例如 3600)
  • 任何负数都会使模型保持在内存中(例如 -1 或“-1m”)
  • “0”将在生成响应后立即卸载模型
    例如,要预加载模型并将其保留在内存中,请使用:
curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": -1}'
 

要卸载模型并释放内存使用:

curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": 0}'

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

田猿笔记

写文章不容易,希望大家小小打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值