Ollama完整教程：本地LLM管理、WebUI对话、Python/Java客户端API应用

最新推荐文章于 2025-04-23 12:00:00 发布

老牛同学

最新推荐文章于 2025-04-23 12:00:00 发布

阅读量1.8w

点赞数 72

分类专栏： AI 文章标签： ai 人工智能大模型 Ollama

转载请注明原文链接：https://ntopic.cn

本文链接：https://blog.csdn.net/obullxl/article/details/140336838

版权

老牛同学在前面有关大模型应用的文章中，多次使用了Ollama来管理和部署本地大模型（包括：Qwen2、Llama3、Phi3、Gemma2等），但对Ollama这个非常方便管理本地大模型的软件的介绍却很少。

目前，清华和智谱 AI 联合发布开源的GLM4-9B大模型也能支持Ollama进行本地部署了（本地部署 GLM-4-9B 清华智谱开源大模型方法和对话效果体验），Ollama支持的大模型越多越普及，对于的应用也就越多。为了降低大家查阅资料等学习时间，老牛同学今天尝试着对 Ollama 进行一次详细完整介绍。毕竟老牛同学也在不断学习中，若有疏漏或者错误之处，还请各位朋友多多指正，谢谢大家。

本文将分为以下章节对 Ollama 进行介绍：

Ollama 基本介绍，它的作用是什么
Ollama 软件安装、一些常用的系统参数设置
Ollama 管理本地已有大模型（包括终端对话界面）
Ollama 导入模型到本地的三种方式：直接从 Ollama 远程仓库拉取、通过 GGUF 模型权重文件导入到本地、通过 safetensors 模型权限文件导入到本地
基于 WebUI 部署 Ollama 可视化对话界面
Ollama 客户端 API 应用，包括 Python API 和 Java API 接口应用

Ollama 是什么，它与 Llama 有什么关系？

Ollama官网：https://ollama.com/，官方网站的介绍就一句话：Get up and running with large language models. （开始使用大语言模型。）

Ollama是一个开源的 LLM（大型语言模型）服务工具，用于简化在本地运行大语言模型、降低使用大语言模型的门槛，使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型，包括如Qwen2、Llama3、Phi3、Gemma2等开源的大型语言模型。

Ollama支持的大语言模型列表，可通过搜索模型名称查看：https://ollama.com/library

Ollama官方 GitHub 源代码仓库：https://github.com/ollama/ollama/

Llama是 Meta 公司开源的备受欢迎的一个通用大语言模型，和其他大模型一样，Llama可以通过Ollama进行管理部署和推理等。

因此，Ollama与Llama的关系：Llama是大语言模型，而Ollama是大语言模型（不限于Llama模型）便捷的管理和运维工具，它们只是名字后面部分恰巧相同而已！

Ollama官网

Ollama 安装和常用系统参数设置

在官网首页，我们可以直接下载Ollama安装程序（支持 Windows/MacOS/Linux）：https://ollama.com/

Ollama的安装过程，与安装其他普通软件并没有什么两样，安装完成之后，有几个常用的系统环境变量参数建议进行设置：

OLLAMA_MODELS：模型文件存放目录，默认目录为当前用户目录（Windows 目录：C:\Users%username%.ollama\models，MacOS 目录：~/.ollama/models，Linux 目录：/usr/share/ollama/.ollama/models），如果是 Windows 系统建议修改（如：D:\OllamaModels），避免 C 盘空间吃紧
OLLAMA_HOST：Ollama 服务监听的网络地址，默认为127.0.0.1，如果允许其他电脑访问 Ollama（如：局域网中的其他电脑），建议设置成0.0.0.0，从而允许其他网络访问
OLLAMA_PORT：Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如：8080等）
OLLAMA_ORIGINS：HTTP 客户端请求来源，半角逗号分隔列表，若本地使用无严格要求，可以设置成星号，代表不受限制
OLLAMA_KEEP_ALIVE：大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如：纯数字如 300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）；我们可设置成24h，即模型在内存中保持 24 小时，提高访问速度
OLLAMA_NUM_PARALLEL：请求处理并发数量，默认为1，即单并发串行处理请求，可根据实际情况进行调整
OLLAMA_MAX_QUEUE：请求队列长度，默认值为512，可以根据情况设置，超过队列长度请求被抛弃
OLLAMA_DEBUG：输出 Debug 日志标识，应用研发阶段可以设置成1，即输出详细日志信息，便于排查问题
OLLAMA_MAX_LOADED_MODELS：最多同时加载到内存中模型的数量，默认为1，即只能有 1 个模型在内存中

Ollama 管理本地已有大模型

【展示本地大模型列表：ollama list】

>ollama list
NAME            ID              SIZE    MODIFIED
gemma2:9b       c19987e1e6e2    5.4 GB  7 days ago
qwen2:7b        e0d4e1163c58    4.4 GB  10 days ago

可以看到，老牛同学本地有 2 个大模型，它们的名称（NAME）分别为gemma2:9b和qwen2:7b。

【删除单个本地大模型：ollama rm 本地模型名称】

>ollama rm gemma2:9b
deleted 'gemma2:9b'

>ollama list
NAME            ID              SIZE    MODIFIED
qwen2:7b        e0d4e1163c58    4.4 GB  10 days ago

老牛同学通过rm命令删除了gemma2:9b大模型之后，再次通过list命令查看，本地只有qwen2:7b一个大模型了。

【启动本地模型：ollama run 本地模型名】

>ollama run qwen2:0.5b
>>>

启动成功之后，就可以通过终端对话界面进行对话了（本命令下面也会讲到，其他详细暂且忽略）

【查看本地运行中模型列表：ollama ps】

>ollama ps
NAME            ID              SIZE    PROCESSOR       UNTIL
qwen2:0.5b      6f48b936a09f    693 MB  100% CPU        4 minutes from now

通过ps命名可以看到，老牛同学本地qwen2:0.5b大模型正在运行中。

【复制本地大模型：ollama cp 本地存在的模型名新复制模型名】

>ollama cp qwen2:0.5b Qwen2-0.5B
copied 'qwen2:0.5b' to 'Qwen2-0.5B'

>ollama list
NAME                    ID              SIZE    MODIFIED
Qwen2-0.5B:latest       6f48b936a09f    352 MB  4 seconds ago
qwen2:0.5b              6f48b936a09f    352

最低0.47元/天解锁文章