本地大模型部署工具Ollama入门教程

基础指令

Ollama可以直接在官网下载,安装之后发现是个命令行工具。

作为一个大语言模型的服务工具,Ollama的核心功能就是加载、管理并使用大语言模型,作为命令行来说,其最常用的指令无非是下载、启动、退出、删除以及列举出目前已经安装的所有模型。示例如下

> ollama pull llama3.2
> ollama list
NAME                      ID              SIZE      MODIFIED
llama3.2:latest           a80c4f17acd5    2.0 GB    3 minutes ago
llava:latest              8dd30f6b0cb1    4.7 GB    11 days ago
> ollama show llama3.2
  Model
    architecture        llama
    parameters          3.2B
    context length      131072
    embedding length    3072
    quantization        Q4_K_M
> ollama run llama3.2
>>> /exit
> ollama rm llama3.2

其中,【pull】即拉取/下载大模型;【list】列举出目前可用的所有大模型;【show】可以显示模型的详细信息;【run】用于大模型的启动,启动之后就可以和大模型对话了;【/exit】是在对话界面退出当前大模型的指令;【rm】用于删除对应的大模型。

此外,ollama支持同时打开多个命令行,相应地,可以用【ps】指令来检测正在运行中的大模型

>ollama ps
NAME               ID              SIZE      PROCESSOR    UNTIL
llama3.2:latest    a80c4f17acd5    4.0 GB    100% GPU     3 minutes from now

模型加载与本地设置

Ollama提供的大模型可从library中找到,以llama3.2-vision为例,点击进入之后,提供了如下信息

在这里插入图片描述

其中选框【11b】是一个拥有110亿参数的版本,右侧ollama run llama3.2-vision即运行模型的指令。【run】这个指令其实包含了【pull】这个步骤,即如果尚未下载,则先【pull】一下再运行。

下面的表格即为此模型中包含的文件,总共7.9GB。

除了自家提供的模型之外,Ollama也可以运行从其他模型库下载的模型,比如魔塔社区HF镜像站

从HF镜像站下载一个中文的llama大模型,项目名称是llama-3-chinese-8b-instruct-v3-gguf,下载其中的ggml-model-q2_k.gguf,然后新建一个临时文件【test】,内容为

FROM ggml-model-q2_k.gguf

接下来就可以使用ollama的【create】命令,从本地创建大模型了

ollama create llama3zh -f test
ollama list
NAME                      ID              SIZE      MODIFIED
llama3zh:latest           2a1c54c297e3    3.2 GB    50 seconds ago
...

环境变量设置

大模型的尺寸基本都是以GB来计,对于个人用户来说还是比较大的,而其默认的存放路径为C盘的用户目录,如果不想占用过多的C盘空间,可以将环境变量OLLAMA_MODELS改为【D:\OllamaModels】。

此外,一些可能会用到的的环境变量如下

环境变量说明默认值
OLLAMA_MODELS模型文件存放目录当前用户目录
OLLAMA_HOST服务监听网址127.0.0.1
OLLAMA_PORT服务监听端口11434
OLLAMA_KEEP_ALIVE模型载入内存后的存活时间5m(即5分钟)
OLLAMA_NUM_PARALLEL请求处理并发数量1
OLLAMA_MAX_QUEUE请求队列长度512
OLLAMA_DEBUG是否输出Debug日志
OLLAMA_MAX_LOADED_MODELS最多同时加载到内存中模型的数量1
  • 将【OLLAMA_HOST】设为0.0.0.0,可以允许局域网中的其他电脑访问。
  • 【OLLAMA_KEEP_ALIVE】默认单位是秒,数字后用m表示分钟,h表示小时。
### 如何在本地环境中部署Ollama大模型 #### 下载并安装Ollama 对于Windows用户,访问官方提供的下载页面[^2]。打开该网站后,选择适用于操作系统的版本,在此情况下为Windows,并按照指示完成安装过程。 #### 配置环境 确保计算机满足运行大型语言模型所需的硬件条件,包括足够的内存和处理能力。虽然具体需求取决于所选模型大小,但通常建议至少有8GB RAM以及支持CUDA的GPU来加速计算性能(如果打算利用NVIDIA GPU的话)。不过请注意,某些小型模型可以在CPU上有效工作而无需专门图形卡的支持[^3]。 #### 使用命令行管理Ollama 一旦成功安装了Ollama服务端程序之后,可以通过一系列简便易懂的CLI(Command Line Interface)指令来进行进一步的操作: - `ollama serve`:启动Ollama服务器实例。 - `ollama create <model_name>`:基于指定路径下的模型文件创建新的LLM实例。 - `ollama show <model_name>`:查看特定模型的相关信息。 - `ollama run <model_name>`:执行选定的大规模预训练模型;首次调用时会自动尝试获取远程资源。 - `ollama pull <repository>/<image>:<tag>`:从未知源提取镜像到本地存储区。 - `ollama push <repository>/<image>:<tag>`:上传自定义修改后的模型至远端仓库分享给他人使用。 - `ollama list`:展示当前机器上的所有可用模型列表。 - `ollama ps`:列举处于活动状态的服务进程详情。 - `ollama cp <source> <destination>`:实现不同位置间的数据迁移功能。 - `ollama rm <model_name>`:移除不再需要的模型释放空间。 这些基本命令提供了管理和交互所需的一切工具,使得即使是初次接触这类技术的人也能轻松入门[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微小冷

请我喝杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值