基础指令
Ollama可以直接在官网下载,安装之后发现是个命令行工具。
作为一个大语言模型的服务工具,Ollama的核心功能就是加载、管理并使用大语言模型,作为命令行来说,其最常用的指令无非是下载、启动、退出、删除以及列举出目前已经安装的所有模型。示例如下
> ollama pull llama3.2
> ollama list
NAME ID SIZE MODIFIED
llama3.2:latest a80c4f17acd5 2.0 GB 3 minutes ago
llava:latest 8dd30f6b0cb1 4.7 GB 11 days ago
> ollama show llama3.2
Model
architecture llama
parameters 3.2B
context length 131072
embedding length 3072
quantization Q4_K_M
> ollama run llama3.2
>>> /exit
> ollama rm llama3.2
其中,【pull】即拉取/下载大模型;【list】列举出目前可用的所有大模型;【show】可以显示模型的详细信息;【run】用于大模型的启动,启动之后就可以和大模型对话了;【/exit】是在对话界面退出当前大模型的指令;【rm】用于删除对应的大模型。
此外,ollama支持同时打开多个命令行,相应地,可以用【ps】指令来检测正在运行中的大模型
>ollama ps
NAME ID SIZE PROCESSOR UNTIL
llama3.2:latest a80c4f17acd5 4.0 GB 100% GPU 3 minutes from now
模型加载与本地设置
Ollama提供的大模型可从library中找到,以llama3.2-vision为例,点击进入之后,提供了如下信息
其中选框【11b】是一个拥有110亿参数的版本,右侧ollama run llama3.2-vision
即运行模型的指令。【run】这个指令其实包含了【pull】这个步骤,即如果尚未下载,则先【pull】一下再运行。
下面的表格即为此模型中包含的文件,总共7.9GB。
除了自家提供的模型之外,Ollama也可以运行从其他模型库下载的模型,比如魔塔社区、HF镜像站。
从HF镜像站下载一个中文的llama大模型,项目名称是llama-3-chinese-8b-instruct-v3-gguf,下载其中的ggml-model-q2_k.gguf,然后新建一个临时文件【test】,内容为
FROM ggml-model-q2_k.gguf
接下来就可以使用ollama的【create】命令,从本地创建大模型了
ollama create llama3zh -f test
ollama list
NAME ID SIZE MODIFIED
llama3zh:latest 2a1c54c297e3 3.2 GB 50 seconds ago
...
环境变量设置
大模型的尺寸基本都是以GB来计,对于个人用户来说还是比较大的,而其默认的存放路径为C盘的用户目录,如果不想占用过多的C盘空间,可以将环境变量OLLAMA_MODELS改为【D:\OllamaModels】。
此外,一些可能会用到的的环境变量如下
环境变量 | 说明 | 默认值 |
---|---|---|
OLLAMA_MODELS | 模型文件存放目录 | 当前用户目录 |
OLLAMA_HOST | 服务监听网址 | 127.0.0.1 |
OLLAMA_PORT | 服务监听端口 | 11434 |
OLLAMA_KEEP_ALIVE | 模型载入内存后的存活时间 | 5m(即5分钟) |
OLLAMA_NUM_PARALLEL | 请求处理并发数量 | 1 |
OLLAMA_MAX_QUEUE | 请求队列长度 | 512 |
OLLAMA_DEBUG | 是否输出Debug日志 | |
OLLAMA_MAX_LOADED_MODELS | 最多同时加载到内存中模型的数量 | 1 |
- 将【OLLAMA_HOST】设为0.0.0.0,可以允许局域网中的其他电脑访问。
- 【OLLAMA_KEEP_ALIVE】默认单位是秒,数字后用m表示分钟,h表示小时。