本地大模型部署工具Ollama入门教程

最新推荐文章于 2025-02-10 14:07:38 发布

微小冷

最新推荐文章于 2025-02-10 14:07:38 发布

阅读量1.6k

点赞数 27

分类专栏： AI 文章标签： ollama 人工智能大模型 llama 本地部署本地大模型 AI

本文链接：https://blog.csdn.net/m0_37816922/article/details/144288364

版权

AI 专栏收录该内容

1 篇文章

订阅专栏

文章目录

基础指令

Ollama可以直接在官网下载，安装之后发现是个命令行工具。

作为一个大语言模型的服务工具，Ollama的核心功能就是加载、管理并使用大语言模型，作为命令行来说，其最常用的指令无非是下载、启动、退出、删除以及列举出目前已经安装的所有模型。示例如下

> ollama pull llama3.2
> ollama list
NAME                      ID              SIZE      MODIFIED
llama3.2:latest           a80c4f17acd5    2.0 GB    3 minutes ago
llava:latest              8dd30f6b0cb1    4.7 GB    11 days ago
> ollama show llama3.2
  Model
    architecture        llama
    parameters          3.2B
    context length      131072
    embedding length    3072
    quantization        Q4_K_M
> ollama run llama3.2
>>> /exit
> ollama rm llama3.2

其中，【pull】即拉取/下载大模型；【list】列举出目前可用的所有大模型；【show】可以显示模型的详细信息；【run】用于大模型的启动，启动之后就可以和大模型对话了；【/exit】是在对话界面退出当前大模型的指令；【rm】用于删除对应的大模型。

此外，ollama支持同时打开多个命令行，相应地，可以用【ps】指令来检测正在运行中的大模型

>ollama ps
NAME               ID              SIZE      PROCESSOR    UNTIL
llama3.2:latest    a80c4f17acd5    4.0 GB    100% GPU     3 minutes from now

模型加载与本地设置

Ollama提供的大模型可从library中找到，以llama3.2-vision为例，点击进入之后，提供了如下信息

在这里插入图片描述

其中选框【11b】是一个拥有110亿参数的版本，右侧ollama run llama3.2-vision即运行模型的指令。【run】这个指令其实包含了【pull】这个步骤，即如果尚未下载，则先【pull】一下再运行。

下面的表格即为此模型中包含的文件，总共7.9GB。

除了自家提供的模型之外，Ollama也可以运行从其他模型库下载的模型，比如魔塔社区、HF镜像站。

从HF镜像站下载一个中文的llama大模型，项目名称是llama-3-chinese-8b-instruct-v3-gguf，下载其中的ggml-model-q2_k.gguf，然后新建一个临时文件【test】，内容为

FROM ggml-model-q2_k.gguf

接下来就可以使用ollama的【create】命令，从本地创建大模型了

ollama create llama3zh -f test
ollama list
NAME                      ID              SIZE      MODIFIED
llama3zh:latest           2a1c54c297e3    3.2 GB    50 seconds ago
...

环境变量设置

大模型的尺寸基本都是以GB来计，对于个人用户来说还是比较大的，而其默认的存放路径为C盘的用户目录，如果不想占用过多的C盘空间，可以将环境变量OLLAMA_MODELS改为【D:\OllamaModels】。

此外，一些可能会用到的的环境变量如下

环境变量	说明	默认值
OLLAMA_MODELS	模型文件存放目录	当前用户目录
OLLAMA_HOST	服务监听网址	127.0.0.1
OLLAMA_PORT	服务监听端口	11434
OLLAMA_KEEP_ALIVE	模型载入内存后的存活时间	5m(即5分钟)
OLLAMA_NUM_PARALLEL	请求处理并发数量	1
OLLAMA_MAX_QUEUE	请求队列长度	512
OLLAMA_DEBUG	是否输出Debug日志
OLLAMA_MAX_LOADED_MODELS	最多同时加载到内存中模型的数量	1