人工智能——使用Ollama部署本地大模型

小马不会过河

于 2024-09-13 20:09:28 发布

阅读量363

点赞数 17

文章标签：人工智能分类数据挖掘深度学习机器学习

本文链接：https://blog.csdn.net/m0_59163425/article/details/142219192

版权

1、简介

在如今的 AI 应用领域中，大模型（LLM，Large Language Models）已然成为推动前沿技术发展的关键力量。其中的 Top1 当属 OpenAI 的 GPT 系列无疑，它通过大规模的数据训练、可以执行高质量的语言处理任务，如聊天问答、文本生成、翻译等。

去年，ChatGPT 引入了定制个人知识库的支持，该功能采用了检索增强（RAG，Retrieval-Augmented Generation）技术，它使得模型能够在生成回答前、先从知识库中检索相关信息，显著提高了输出的准确性和信息量。然而，由于网络环境、隐私和政策等原因，导致线上知识库在使用时面临诸多限制，这促使更多人开始寻求部署自己的本地大模型和知识库。不过，当下各种大模型野蛮生长，没有统一的管理标准，虽然开源免费的很多、但部署到本地的门槛也不低。直到 Ollama 的出现 …

Ollama 是一个大模型的管理框架，其作用类似于 Docker：如果将每一个标准化的大模型视为“镜像”，那么 Ollama 就能够通过一行命令快速拉取并运行这些大模型。然而，Ollama 本身是基于命令行的服务，所以为了方便我们对大模型进行微调和使用，还需要引入 maxkb 。maxkb 提供了一个 ChatBot 界面，它会把我们输入的结构化知识、转换成大模型可以理解的语言（即嵌入向量），从而实现有效的交互。在本文中，将会引导大家何利用 Ollama 快速搭建本地的大模型服务，并结合 maxkb 构建一个私人定制知识库。

2、优势

开源免费： Ollama 及其支持的模型完全开源免费，任何人都可以自由使用、修改和分发。
简单易用：无需复杂的配置和安装过程，只需几条命令即可启动和运行 Ollama。
模型丰富： Ollama 支持 Llama 3、Mistral、Qwen2 等众多热门开源 LLM，并提供一键下载和切换功能。
资源占用低：相比于商业 LLM，Ollama 对硬件要求更低，即使在普通笔记本电脑上也能流畅运行。
社区活跃： Ollama 拥有庞大且活跃的社区，用户可以轻松获取帮助、分享经验和参与模型开发。

3、如何使用

安装 Ollama：根据你的操作系统，从 Ollama 官网下载并安装最新版本。
启动 Ollama：打开终端或命令行，输入 ollama serve 命令启动 Ollama 服务器。
下载模型：在模型仓库找到想要的模型，然后使用 ollama pull 命令下载，例如 ollama pull llama3:70b 。
运行模型：使用 ollama run 命令启动模型，例如 ollama run llama3:70b 。
开始聊天：在终端中输入你的问题或指令，Ollama 会根据模型生成相应的回复。

4、模型库

Ollama 支持在 ollama.com/library 上获取的模型列表，以下是一些可下载的示例模型：

Model	Parameters	Size	Download
Llama 3	8B	4.7GB	`ollama run llama3`
Llama 3	70B	40GB	`ollama run llama3:70b`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`
Solar	10.7B	6.1GB	`ollama run solar`

注意：运行 7B 模型至少需要 8 GB 的 RAM，运行 13B 模型需要 16 GB，运行 33B 模型需要 32 GB。

5、安装Ollama

\[root@mast01 ~\]\# curl -fsSL https://ollama.com/install.sh | sh  
\>>> Downloading ollama...  
######################################################################## 100.0%  
\>>> Installing ollama to /usr/local/bin...  
\>>> Creating ollama user...  
\>>> Adding ollama user to video group...  
\>>> Adding current user to ollama group...  
\>>> Creating ollama systemd service...  
\>>> Enabling and starting ollama service...  
Created symlink from /etc/systemd/system/default.target.wants/ollama.service to /etc/systemd/system/ollama.service.  
\>>> The Ollama API is now available at 127.0.0.1:11434.  
\>>> Install complete. Run "ollama" from the command line.  
WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.  
  
\[root@mast01 ~\]\# ollama run llama3  
pulling manifest   
pulling 6a0746a1ec1a... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 4.7 GB                           
pulling 4fa551d4f938... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  12 KB                           
pulling 8ab4849b038c... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  254 B                           
pulling 577073ffcc6c... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  110 B                           
pulling 3f8eb4da87fa... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  485 B                           
verifying sha256 digest   
writing manifest   
removing any unused layers   
success   
\>>>  #直接退出即可

查看下服务状态

\[root@mast01 ~\]\# systemctl status ollama  
● ollama.service \- Ollama Service  
   Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: disabled)  
   Active: active (running) since 四 2024\-08-15 19:02:40 CST; 3s ago  
 Main PID: 128252 (ollama)  
    Tasks: 10  
   Memory: 414.1M  
   CGroup: /system.slice/ollama.service  
           └─128252 /usr/local/bin/ollama serve

修改端口

#默认只能本地访问  
\[root@mast01 ~\]\# netstat -tunlp|grep ollama  
tcp        0      0 127.0.0.1:11434         0.0.0.0:\*               LISTEN      23094/ollama       
  
\[root@mast01 ~\]\# vim /etc/systemd/system/ollama.service  
\[Service\]  
Environment\="OLLAMA\_HOST=0.0.0.0"

更改模型存放位置

\[root@mast01 ~\]\# vim /etc/systemd/system/ollama.service  
\[Service\]  
Environment\="OLLAMA\_MODELS=/data/ollama/models"

指定运行GPU

#如果有多张 GPU，可以对 CUDA\_VISIBLE\_DEVICES 配置，指定运行的 GPU，默认使用多卡  
\[root@mast01 ~\]\# vim /etc/systemd/system/ollama.service  
Environment\="CUDA\_VISIBLE\_DEVICES=0,1"

重启 ollama

\[root@mast01 ~\]\# systemctl daemon-reload  
\[root@mast01 ~\]\# systemctl restart ollama

6、安装maxkb

MaxKB 是一款基于 LLM 大语言模型的知识库问答系统，由飞致云开发。通过MaxKB可以实现在网页上可视化使用大语言模型。本次采用docker的方式直接部署。

\[root@mast01 ~\]\# docker run -d --name=maxkb -p 8080:8080 -v ~/.maxkb:/var/lib/postgresql/data cr2.fit2cloud.com/1panel/maxkb

访问（默认账号：admin 密码：MaxKB@123…）

7、导入模型

系统管理---->模型设置---->Ollama---->添加模型

模型配置（API Key处任意输入：我这里输的是*）

点击修改之后，会自动导入配置

8、创建应用

在应用处点击创建应用

在这里插入图片描述

输入自定义的应用名称，我这里输入ai

选择关联好的ai模型，点击右上角的保存并发布

回到概览，点击演示。可以根据需求修改参数

在这里插入图片描述

即可对话大语言模型

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述