Ollama 上下文限2048的解决方案

最新推荐文章于 2025-03-18 15:53:07 发布

星哥来了

最新推荐文章于 2025-03-18 15:53:07 发布

阅读量6.8k

点赞数 6

文章标签： chrome 前端

本文链接：https://blog.csdn.net/u013220851/article/details/145089014

版权

1、通过增加配置

ollama默认限制上下文的长度是2048，如果我们用ollama作为知识库基准模型，上下文超过2048直接会被阻断，提出内容不会根据上下文来回答

官方提出一个解决方案那就是通过设置num_ctx的大小来设置上下文，但是如果把会话改成ollama支持的openAI的方式这个属性就无效了

经过本人的测试默认qwen2.5:14b-instruct-q8_0占用17g的显存也就是限制上下文2048，但是如果改成8192显存会直接飙升到30g左右，所以要慎重更改。或者可以使用vLLM的部署方案，经过测试长上下文显存优化会更好速度更快

import requests

url = "http://10.10.40.102:10434/api/chat"

payload = {
    "model": "qwen2.5:14b-instruct-q8_0",
    "stream": False,
    "messages": [
        {
            "role": "system",
            "content": """你可以根据需要修改这个系统提示""",
        },
        {"role": "user", "content": "如何快速创建可视化应用"},
    ],
    "options": {"num_ctx": 8192}
}

response = requests.post(url, json=payload)
print(response.text)

2、重新建立模型

还有一种方法那就是重新创建模型并修改上下文长度

导出配置文件Modelfile

ollama show --modelfile qwen2.5:14b-instruct-q8_0 > Modelfile

修改Modelfile文件并配置上下文token PARAMETER num_ctx 4096

重新创建模型我直接改成了qwen2.5:14b-4096，然后你需要运行的就是这个qwen2.5:14b-4096这个模型，他的上下文限制就变成了4096

ollama create qwen2.5:14b-4096 -f Modelfile

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

星哥来了

关注关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

ollama修改模型问答的上下文长度（num_ctx）

羊城迷鹿的博客

08-01

1万+

在使用ollama做大模型问答的过程中，发现存在着当输入问题过长之后，模型无法回答的问题。经过查询资料，这与一个叫做num_ctx的参数有关，它用来控制对话上下文的长度，在大模型动辄支持32k上下文的当下，ollama居然丧心病狂地把这个参数默认设成了2048也就是2.048k，真是叔可忍婶不可忍！ollama的每个模型都有个配置文件，这里需要在原基础上生成一个新的配置文件，再根据这个配置文件去生成新的模型，以。，但是缺点是只能在命令行中生效，通过API调用是无效的，下次从命令行再启动也是要重新输的。

聊聊大语言模型的上下文处理能力基本概念

12-09

1567

前面提到Llama3.1版本大语言模型的上下文处理能力为128K，意味着该模型在一次处理中能够容纳和理解的文本信息量大约为128,000个Tokens。ChatGPT本身并没有明确公开宣称其固定的上下文处理能力具体为多少 Tokens，但据一些研究和分析推测，ChatGPT的上下文处理能力大致在2048到4096 Tokens左右。Kimi 的上下文处理能力非常强大，其标准版可以处理 20 万字长度的文本，探索版更是可以处理高达 200 万字长度的文本。

参与评论您还未登录，请先登录后发表或查看评论

调用Ollama API的时候怎么指定输入长度（上下文长度）

qysh123的专栏

08-15

4324

这样就指定了上下文长度为8192。

ollama 安装大模型 上下文2048限制修改

最新发布

qq_29213799的博客

03-18

1386

ollama 修改默认上下文2048限制

ollama对超长文本自动摘要(巨坑,看这一篇就足够)

Ven%的博客

12-17

1584

Ollama作为一个大模型的部署工具,为了提高它的运行效率,把一些配置参数固定死了。因此，不能完整的使用到大模型的真正的功能，例如：有32k上下文的大模型，通过Ollama部署运行后，若输入的文本超过2048K，模型就会返回文本摘要。其实不是大模型本身会对超长文本进行自动摘要，是因为Ollama内置了默认的2048K的上下文窗口，限制了大模型对于长文本的能力。

Ollama 高阶配置，如何增加上下文窗口大小？

m0_59235945的博客

09-04

1万+

使用Ollama部署大模型的时候，有几个注意事项要注意。Ollama默认的上下文窗口只有2K，多张显卡可能资源分配不均等问题，计算速度不够快。我们先看一下Ollama可配置环境变量：OLLAMA_DEBUG: 显示额外的调试信息（例如：OLLAMA_DEBUG=1）。OLLAMA_HOST: Ollama 服务器的 IP 地址（默认值：127.0.0.1:11434）。OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长（默认值：“5m”）。

使用ollama创建长上下文的LLM

大数据，大模型，服务器，技术、架构，方案

11-15

2693

模板部分定义了如何根据不同的输入格式化输出。系统消息和工具定义...{{- end }}如果存在系统消息或工具定义，则这部分会被包含在内。系统消息通常用于给模型提供背景信息或指示其行为方式。工具定义则允许模型调用外部函数或服务。消息循环...{{- end }}遍历所有消息，根据消息的角色（用户、助手或工具）来决定如何格式化输出。SystemLicensesuccess一般而言，对于英语文本，1个token大约是3~4个字符；而对于中文文本，则大约是1.5~1.8个汉字。

设置ollama大模型增加上下文！释放模型的全部潜力。

weixin_61263533的博客

03-12

584

还在嫌弃你的大模型记忆力差？进来看看大妈都会改！

ollama + langchain + FAISS 向量数据库，给定知识上下文的问答

TuringEvo专栏

03-31

2842

3 基于上面查询提供语言模型 promt。1 把给定的文档向量化存储为数据库。基于 langchain 框架。4 语言模型生成答案。

通过环境变量定制ollama上下文长度

lilihli的专栏

03-08

758

环境变量设置默认上下文长度。版本开始可以使用新的。

LLMChain使用初探 -- OLLaMA+LangChain搭建本地大模型

sinat_29950703的博客

02-20

2万+

LLMChain是一个简单的链，接受一个提示模板，使用用户输入格式化它并从LLM返回响应。其中，prompt_template是一个非常关键的组件，可以让你创建一个非常简单的链，它将接收用户输入，使用它格式化提示，然后将其发送到LLM。

Ollama全面指南：安装、使用与高级定制

热门推荐

全世界的博客

05-30

13万+

Ollama是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口，用于创建、运行和管理这些模型，同时还提供了一个丰富的预构建模型库，可以轻松集成到各种应用程序中。Ollama的目标是使大型语言模型的部署和交互变得简单，无论是对于开发者还是对于终端用户。Ollama提供了一个直观且用户友好的平台，用于在本地环境中运行大型语言模型。启动Ollama服务：首先，确保Ollama服务已经安装并运行。在命令行中输入以启动服务。选择模型：使用命令查看可用的模型列表。

使用 LlamaIndex 构建基于上下文的聊天引擎

qq_29929123的博客

07-22

533

在本文中，我们将探讨如何使用 LlamaIndex 来构建一个基于上下文的聊天引擎。这个聊天引擎将能够从数据中检索信息，并使用这些信息来回答用户的问题。

OLLaMA搭建本地大模型

Aweii__的博客

07-26

3888

根据 ChatGPT 的使用经验，大家都知道系统提示词的重要性。好的系统提示词能有效地将大模型定制成自己需要的状态。在 Ollama 中，有多种方法可以自定义系统提示词。首先，不少 Ollama 前端已提供系统提示词的配置入口，推荐直接利用其功能。"content": "以海盗的口吻简单作答。},"content": "天空为什么是蓝色的？],}'其中role为system的消息即为系统提示词，跟Modelfile里面的SYSTEM下面的定义差不多一个意思。

Error: open /usr/share/ollama/.ollama/models/manifests/registry.ollama.ai/library/x: permission den

盖丽男

08-05

1306

ollama默认的上下文长度只有2048，所以想要改一下上下文长度，根据官方文档，两种方式可更改，通过设定启动命令。非常好，我在windows上成功执行并且得到了新模型，但是linux上执行。

TensorFlow相关组件的安装

AAI666666的博客

01-11

2628

TensorFlow相关组件的安装

Ollama保姆级教程

andyyah晓波的博客

08-03

7147

Ollama能够更容易的让大模型在本地运行起来，没错，是运行起来，至于交互就差点意思了。总不能总是铜鼓命令行来交互吧，这样也太不优雅了！实际上Ollama主要是用来提供服务的，也就是作为服务端，但是可以通过配合其他的UI界面来更方便的使用大模型，例如Open WebUI等。Ollama官网：https://ollama.com/downloadOllama文档：https://github.com/ollama/ollama/tree/main/docs。

deepseek ollama

02-02

### DeepSeek与Ollama技术文档使用指南 #### 构建检索增强生成(RAG)系统的重要性构建基于DeepSeek R1和Ollama的检索增强生成(RAG)系统能够显著提升应用程序处理复杂查询的能力。这类系统不仅限于简单的关键词匹配，而是深入理解上下文并提供更加精准的信息反馈[^1]。 #### 利用Phidata创建具备长期记忆功能的AI代理助手借助Phidata平台以及Llama模型家族成员之一——Llama 3, 用户可以轻松搭建起拥有持久化存储能力的情境感知型智能体。这种类型的AI能够在长时间跨度上保持对话连贯性和一致性，从而更好地服务于特定领域内的持续交互需求[^2]。 #### 工作空间配置流程详解当完成工作区初始化之后，在界面左侧可以看到两个主要操作按钮：一个是用于导入外部资料的知识库入口；另一个则是用来调整当前环境设定的小齿轮图标。对于想要将自己的私有数据集加入到训练过程中的开发者而言，只需点击知识库旁边的上传标志即可实现文件传输。随后选择目标位置为右侧的工作区域，并按下“保存并嵌入”选项以启动索引建立任务。需要注意的是，这一阶段所需耗时取决于所选材料规模大小不一而定[^3]。 #### 获取源码及安装依赖项指导为了便于更深入了解底层架构运作原理或是参与社区贡献活动，官方仓库提供了完整的开源解决方案。访问者可以通过Git版本控制系统获取最新版代码副本： ```bash git clone https://github.com/ollama/ollama.git cd ollama ``` 接着按照指示说明完成必要的软件包下载与编译步骤，确保整个开发套件处于良好运行状态之下[^4]。