Ollama 上下文限2048的解决方案

1、通过增加配置

ollama默认限制上下文的长度是2048,如果我们用ollama作为知识库基准模型,上下文超过2048直接会被阻断,提出内容不会根据上下文来回答

官方提出一个解决方案那就是通过设置num_ctx的大小来设置上下文,但是如果把会话改成ollama支持的openAI的方式这个属性就无效了

经过本人的测试默认qwen2.5:14b-instruct-q8_0占用17g的显存也就是限制上下文2048,但是如果改成8192显存会直接飙升到30g左右,所以要慎重更改。或者可以使用vLLM的部署方案,经过测试长上下文显存优化会更好速度更快

import requests

url = "http://10.10.40.102:10434/api/chat"

payload = {
    "model": "qwen2.5:14b-instruct-q8_0",
    "stream": False,
    "messages": [
        {
            "role": "system",
            "content": """你可以根据需要修改这个系统提示""",
        },
        {"role": "user", "content": "如何快速创建可视化应用"},
    ],
    "options": {"num_ctx": 8192}
}

response = requests.post(url, json=payload)
print(response.text)

2、重新建立模型

还有一种方法那就是重新创建模型并修改上下文长度

导出配置文件Modelfile

ollama show --modelfile qwen2.5:14b-instruct-q8_0 > Modelfile

修改Modelfile文件并配置上下文token PARAMETER num_ctx 4096

重新创建模型我直接改成了qwen2.5:14b-4096,然后你需要运行的就是这个qwen2.5:14b-4096这个模型,他的上下文限制就变成了4096

ollama create qwen2.5:14b-4096 -f Modelfile

### DeepSeek与Ollama技术文档使用指南 #### 构建检索增强生成(RAG)系统的重要性 构建基于DeepSeek R1和Ollama的检索增强生成(RAG)系统能够显著提升应用程序处理复杂查询的能力。这类系统不仅于简单的关键词匹配,而是深入理解上下文并提供更加精准的信息反馈[^1]。 #### 利用Phidata创建具备长期记忆功能的AI代理助手 借助Phidata平台以及Llama模型家族成员之一——Llama 3, 用户可以轻松搭建起拥有持久化存储能力的情境感知型智能体。这种类型的AI能够在长时间跨度上保持对话连贯性和一致性,从而更好地服务于特定领域内的持续交互需求[^2]。 #### 工作空间配置流程详解 当完成工作区初始化之后,在界面左侧可以看到两个主要操作按钮:一个是用于导入外部资料的知识库入口;另一个则是用来调整当前环境设定的小齿轮图标。对于想要将自己的私有数据集加入到训练过程中的开发者而言,只需点击知识库旁边的上传标志即可实现文件传输。随后选择目标位置为右侧的工作区域,并按下“保存并嵌入”选项以启动索引建立任务。需要注意的是,这一阶段所需耗时取决于所选材料规模大小不一而定[^3]。 #### 获取源码及安装依赖项指导 为了便于更深入了解底层架构运作原理或是参与社区贡献活动,官方仓库提供了完整的开源解决方案。访问者可以通过Git版本控制系统获取最新版代码副本: ```bash git clone https://github.com/ollama/ollama.git cd ollama ``` 接着按照指示说明完成必要的软件包下载与编译步骤,确保整个开发套件处于良好运行状态之下[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值