【LLM Agents体验 2】利用Dify本地部署Qwen2.5:7B大模型的安装指南

AI布道

已于 2024-11-11 10:47:29 修改

阅读量1.8k

点赞数 10

分类专栏：大模型计算软件 Python 文章标签：语言模型人工智能代理模式

于 2024-11-11 02:10:26 首次发布

本文链接：https://blog.csdn.net/qqbb1987/article/details/143662702

版权

大模型同时被 3 个专栏收录

6 篇文章

订阅专栏

计算软件

6 篇文章

订阅专栏

Python

3 篇文章

订阅专栏

根据上一篇博客安装好了Dify框架：

【LLM Agents体验 1】Dify框架的安装指南

一、安装Ollama

1. 从Ollama【官网】下载（需要科学下载）：

下载完之后安装OllamaSetup.exe：

安装成功后，测试一下没问题:

2. Ollama网站搜索Qwen ，打开此链接，选择7B模型：

补充知识：

Qwen2.5是最新的 Qwen 大型语言模型系列。对于 Qwen2.5，发布了一系列基础语言模型和指令微调模型，大小范围从 0.5 到 720 亿个参数。Qwen2.5 在 Qwen2 上引入了以下改进

它拥有**显著更多的知识**，并且在**编码**和**数学**方面的能力得到了极大的提升，这得益于这些领域中专门的专家模型。
它在**指令遵循**、**长文本生成**（超过 8K 个词元）、**理解结构化数据**（例如表格）和**生成结构化输出**方面取得了重大进展，尤其是在 JSON 格式方面。它也**对各种系统提示更加健壮**，改善了聊天机器人的角色扮演和条件设置。
它支持高达 128K 个词元的**长上下文**，并可以生成高达 8K 个词元。
它为 29 种以上的语言提供**多语言支持**，包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等等。

打开一个cmd输入以下指令：

下载安装需要一段时间。。。漫长的时间回来，安装之后，就可以提问了，恭喜你熬出头了。

3. 启动一个API端口，浏览器输入：http://localhost:11434/，证明模型运行成功。

二、配置Dify

1.点击Dify本地页面中自己的头像，选择“设置”——>模型供应商——>Ollama：

遇到问题（没有问题可以跳过此处）：

An error occurred during credentials validation: HTTPConnectionPool(host='localhost', port=11434): Max retries exceeded with url: /api/chat (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f3dbd4cb790>: Failed to establish a new connection: [Errno 111] Connection refused'))

解决方案：设置OLLAMA_HOST、OLLAMA_MODELS（官网只说修改但是没给实例，醉了），这个问题查了好些资料没有关于win具体操作，修改发现解决答案：

最近，发现一篇博文讲得更清楚：ollama 部署教程（window、linux）_olama-CSDN博客

首选修改系统——>环境变量(OLLAMA_HOST和OLLAMA_MODELS)：

补充知识：

Ollama的安装过程，与安装其他普通软件并没有什么两样，安装完成之后，有几个常用的系统环境变量参数建议进行设置：

OLLAMA_MODELS：模型文件存放目录，默认目录为当前用户目录（Windows 目录：C:\Users%username%.ollama\models，MacOS 目录：~/.ollama/models，Linux 目录：/usr/share/ollama/.ollama/models），如果是 Windows 系统建议修改（如：D:\OllamaModels），避免 C 盘空间吃紧
OLLAMA_HOST：Ollama 服务监听的网络地址，默认为127.0.0.1，如果允许其他电脑访问 Ollama（如：局域网中的其他电脑），建议设置成0.0.0.0，从而允许其他网络访问
OLLAMA_PORT：Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如：8080等）
OLLAMA_ORIGINS：HTTP 客户端请求来源，半角逗号分隔列表，若本地使用无严格要求，可以设置成星号，代表不受限制
OLLAMA_KEEP_ALIVE：大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如：纯数字如 300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）；我们可设置成24h，即模型在内存中保持 24 小时，提高访问速度
OLLAMA_NUM_PARALLEL：请求处理并发数量，默认为1，即单并发串行处理请求，可根据实际情况进行调整
OLLAMA_MAX_QUEUE：请求队列长度，默认值为512，可以根据情况设置，超过队列长度请求被抛弃
OLLAMA_DEBUG：输出 Debug 日志标识，应用研发阶段可以设置成1，即输出详细日志信息，便于排查问题
OLLAMA_MAX_LOADED_MODELS：最多同时加载到内存中模型的数量，默认为1，即只能有 1 个模型在内存中

最关键就是url地址：