使用Ollama部署非官方仓库模型（Windows）

最新推荐文章于 2025-02-24 14:08:36 发布

有理想，在路上

最新推荐文章于 2025-02-24 14:08:36 发布

阅读量1.5k

点赞数 13

文章标签： llama 语言模型

本文链接：https://blog.csdn.net/qq_26042191/article/details/140617409

版权

一、从GitHub拉去llama.cpp项目

git clone https://github.com/ggerganov/llama.cpp

下载完成后在当前目录的路径输入cmd,进入命令行
在这里插入图片描述

二、安装python执行的相关依赖

执行

pip install -r requirements.txt

在这里插入图片描述

三、下载模型文件

依赖安装成功后开始转换模型这里以魔塔上的Chat2DB为例，按照下载步骤使用git拉去模型到本地
在这里插入图片描述

四、执行转换gguf命令

python convert-hf-to-gguf.py D:\tool\ollama\models\Chat2DB-SQL-7B

在这里插入图片描述

执行完成后会在模型目录生成一个ggml-model-f16.gguf文件*
在这里插入图片描述

五、接下来是进行量化

到GitHub上下载发布的版本，也可以本地编译
https://github.com/ggerganov/llama.cpp/releases
在这里插入图片描述

我这边在的是llama-b3291-bin-win-noavx-x64，

.\llama-quantize.exe D:\tool\ollama\models\Chat2DB-SQL-7B\ggml-model-f16.gguf D:\tool\ollama\models\Chat2DB-SQL-7B\ggml-model-Q4_K_M.gguf Q4_K_M

在这里插入图片描述

执行完成后在模型目录会生成ggml-model-Q4_K_M.gguf文件
在这里插入图片描述

六、使用Ollama创建模型

在当前文件创建Modelfile文件，里面内容如下

FROM ./ggml-model-Q4_K_M.gguf

在这里插入图片描述
在当前目录进入cmd，输入

ollama create chat2DB:7B -f Modelfile

创建ollama可以运行的模型

ollama run chat2DB:7B

在这里插入图片描述

这样一个自定义的模型就使用Ollama运行起来啦

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

有理想，在路上

关注关注

13
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

无缝融入，即刻智能[一]：Dify-LLM大模型平台，零编码集成嵌入第三方系统，42K+星标见证专属智能方案

丨汀、的博客

08-12

6324

无缝融入，即刻智能[一]：Dify-LLM大模型平台，零编码集成嵌入第三方系统，42K+星标见证专属智能方案

LLM大模型部署实战指南：Ollama部署简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发【含ollama详细部署指南多版本】

丨汀、的博客

08-13

1万+

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

参与评论您还未登录，请先登录后发表或查看评论

如何用Ollama直接加载官网没有的本地大模型

2301_76362892的博客

05-22

9872

大家在用ollama加载大模型时，第一步都是要到国外网站去下载模型，即需要科学上网，又需要大带宽，且对于一些OLLAMA官网没有的大模型还不能直接使用，本文重点解决那种本地已经下载好的（含官网没有的）大模型如何直接被ollama加载使用问题。

为Ollama添加本地自定义（非官方仓库）模型详细教程

yulixixi的博客

12-23

1776

为docker内的Ollama添加本地自定义（非官方仓库）模型详细教程

【经验分享】Model Scope x Ollama：快速下载模型，提高开发效率！

慢热型网友的博客

02-07

4584

在人工智能领域，模型的下载和部署一直是开发者面临的一大挑战。尤其是对于一些国外的模型平台，下载速度慢、需要翻墙等问题常常让人头疼。不过，最近魔塔社区（ModelScope）与 Ollama 的合作，为这一问题提供了一个完美的解决方案！Ollama 是一个非常受欢迎的人工智能模型平台，提供了丰富的模型资源。下载速度慢：网络延迟和带宽限制导致下载速度非常缓慢，有时甚至需要几个小时才能下载完成一个模型。

Chat2DB-SQL-7B模型介绍

学亮编程手记

02-24

681

Chat2DB-GLM是开源项目的组成部分，旨在提供一个高效的途径，将自然语言查询转换为结构化的SQL语句。此次开源的模型，拥有7B参数，基于CodeLlama进行了精心微调。这一模型专为自然语言转SQL任务设计，支持多种SQL方言，并且具有高达16k的上下文长度处理能力。

chat2db调用ollama实现数据库的操作。

大白菜代码的博客

11-14

1710

chat2db中这样设置，所以需要我自己写一个app.py 去做一下代理请求ollama，不是我不想写自定义，主要是总不成功。前端在：chat2db-client中。clone 后运行起来 chat2db的java端，我现在搞不清这一个项目是有没有链接到数据库里去。其它的我也不用，本来想充钱算了。最后一看单位是美刀。响应速度几秒钟，当时看自己电脑响应速度了。都不花钱了，就不要什么自行车了。上面代码装key及model都写死，所以你一下要先下载下来相关的模型。在chat2db做好链接，再输入你的提示词。

Ollama部署马斯克Grok-1模型

weixin_44455388的博客

03-26

1548

并且在Hugging Face上有大佬放出了Grok-1的非官方GGUF量化模型。在ollama官网，有大佬也已经上传了Grok-1模型。近日llama.cpp添加了对grok-1模型的支持。

一点也不优雅地将Ollama安装到非系统盘E盘

QY-Lei

02-18

1147

Ollama会默认安装在C盘，本文介绍的方法是如何将它移动到E盘，并修改模型的默认下载地址到E盘

本地部署大模型？Ollama 部署和实战，看这篇就够了

u010522887的专栏

07-24

3万+

Ollama 也许是当前最便捷的大模型部署工具，配合Open WebUI，人人都可以拥有大模型自由。

ollama上传本地模型到仓库

weixin_42304193的博客

10-18

1025

一定要添加ollama的密钥，不然上传的时候会报错登录上之后找到设置然后加入你电脑上的ollama的key。

将Ollama安装到非C盘路径

清山博客

02-10

2157

Ollama的安装软件exe双击安装的时候默认是在C盘，以及后续的模型数据下载也在C盘，导致会占用C盘空间，须将其安装到非C盘。

️ 在 Windows WSL 上部署 Ollama 和大语言模型的完整指南20241206

Narutolxy的博客

12-06

3068

本篇博客详解如何在 Windows WSL 环境中高效部署 Ollama 和大语言模型，涵盖从技术栈（WSL、Docker、Ollama）配置到局域网远程访问的完整流程。通过技术架构图和实战经验分享，帮助读者解决部署难点，快速掌握在本地开发环境中运行大模型的核心技巧。

让AI转化为生产力，Dify 私有化部署 + 接入Ollama部署本地模型。

渔夫.AI

08-21

1154

（1）Dify官方释义工作流是通过将复杂的任务分解成较小的步骤（节点）降低系统复杂度，减少了对提示词技术和模型推理能力的依赖，提高了 LLM 应用面向复杂任务的性能，提升了系统的可解释性、稳定性和容错性。我是渔夫，是一名程序员，现已 All in AI，努力探索小而美的AI商业模式、包括AI副业、个人IP、分享技术、非科班转码经验等相关文章，欢迎关注，和渔夫一起成长。优点：把目标场景的任务分解成多个节点，每个节点完成一个任务，然后通过数据流连接起来，其确保逻辑清晰易懂，提升了结果的准确性。

AI学习指南Ollama篇-Ollama中的模型管理

俞兆鹏的博客

01-25

263

GGUF（Generalized Model Format）是一种轻量级的模型格式，专为快速部署设计。轻量级：文件体积小，适合资源受限的设备。高效：加载速度快，运行效率高。兼容性强：广泛支持多种模型架构。

在Windows中将Ollama安装到其他盘（例如D盘）的步骤如下

最新发布

03-21

### 使用Ollama框架和工具部署RAG模型 #### 背景概述 Ollama 是一种轻量级的开源推理引擎，支持多种大型语言模型 (LLMs)，并提供了高效的本地运行环境。通过结合检索增强生成 (RAG) 技术，可以显著提升模型的知识更新能力和特定领域问答性能[^4]。 #### 架构设计为了实现基于 Ollama 的 RAG 模型部署，通常需要以下几个核心组件： 1. **文档存储与索引**：利用 Elasticsearch 或类似的搜索引擎技术来创建结构化数据集索引[^2]。 2. **查询处理模块**：负责解析用户的自然语言输入，并将其转换为可执行的搜索条件。 3. **检索器**：从已建立的数据集中提取最相关的片段作为上下文提供给 LLMs。 4. **生成器**：采用预训练好的大模型（如通过 Ollama 加载），根据检索到的信息生成最终响应。 #### 实现步骤详解以下是具体的技术实现路径： ##### 安装配置Ollama服务端首先需下载安装最新版本的 Ollama 平台，在终端命令行界面完成初始化设置后即可加载所需的基础模型文件。例如对于 Meta 开发的 llama 系列产品而言，默认情况下会自动拉取官方仓库中的权重参数至本地缓存目录下供后续调用[^1]。 ```bash ollama pull meta-llama/Llama-2 ``` ##### 整合外部数据库资源考虑到实际应用场景往往涉及海量非结构化资料整理需求，因此推荐选用功能强大的全文本搜索库——Elasticsearch 来协助管理后台素材池。它不仅能够快速定位目标条目位置，还允许灵活定义匹配策略从而提高召回率表现水平。 ##### 编写自定义脚本逻辑下面展示了一段 Python 示例代码用于演示整个工作流操作流程： ```python from elasticsearch import Elasticsearch import requests # 初始化ES客户端实例对象 es_client = Elasticsearch(["http://localhost:9200"]) def search_relevant_docs(query_text): """向 ES 发起请求获取关联度最高的若干篇文章摘要""" res = es_client.search( index="my_index", body={"query": {"match": {"content": query_text}}} ) return [hit["_source"]['title'] for hit in res['hits']['hits']] def generate_answer(prompt_with_context): """调用远程 API 获取由指定模型产生的回复内容""" url = 'http://127.0.0.1:11434/api/generate' payload = {'model': 'meta-llama/Llama-2', 'prompt': prompt_with_context} response = requests.post(url, json=payload).json() generated_text = response.get('results')[0].get('response') return generated_text.strip() if __name__ == "__main__": user_input = input("请输入您的问题:") retrieved_titles = search_relevant_docs(user_input) context_string = "\n".join(retrieved_titles[:5]) # 只保留前五个结果作为背景补充说明部分 full_prompt = f"{context_string}\n\nQ:{user_input}\nA:" answer = generate_answer(full_prompt) print(f"\n{answer}") ``` 上述程序片段清晰地展示了如何无缝衔接前后两端不同性质的服务接口，形成闭环解决方案架构体系[^3]。 ---