Ollama本地部署大模型


一、Ollama介绍

1. Ollama

Ollama 是一个开源框架,旨在为用户提供在本地运行大型语言模型的能力。
Ollama 支持多种主流模型的下载,也允许用户通过自定义导入的方式来使用自训练的模型。
Ollama 的优势在于其强大的功能和便捷的 API,能够为用户提供灵活的语言模型使用体验。

官网:https://ollama.com
支持的开源大模型:https://ollama.com/library

2. Open-webui

Open WebUI是一个可扩展的、功能丰富的、用户友好的WebUI。
支持各种LLM运行器,包括Ollama和与OpenAI兼容的APIs。

官网:https://github.com/open-webui/open-webui?tab=readme-ov-file

二、CPU运行Ollama

1. 启动

  • ollama
docker run -d --restart=always -p 3001:11434 -v /home/ollama:/root/.ollama --name ai-ollama docker.nju.edu.cn/ollama/ollama:0.1.38
  • open-webui
docker run -d --restart=always -p 3002:8080 -e OLLAMA_API_BASE_URL=http://127.0.0.1:3001/api \
-e HF_ENDPOINT=https://hf-mirror.com -v /home/open-webui-ollama:/app/backend/data \
--name open-webui-ollama ghcr.nju.edu.cn/open-webui/open-webui:git-7a556b2-ollama

2. 注册使用

  • open-webui网址
    http://ip:3000

  • 注册
    在这里插入图片描述

  • 修改语言
    右上角 Settings
    在这里插入图片描述

3. 下载模型

例如:wangshenzhi/llama3-8b-chinese-chat-ollama-q8
在这里插入图片描述

  • 阿里通义千问
    https://ollama.com/library/qwen

在这里插入图片描述

4. 聊天对话

CPU:E5-2683 v4, 回答用时:110秒,CPU占用:49%

在这里插入图片描述

三、GPU运行Ollama

1. GPU安装

  • 安装
sudo apt-get install -y cuda-drivers-535
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt-get update
sudo apt-get -y install nvidia-cuda-toolkit
sudo apt install -y nvidia-container-runtime
  • /etc/docker/daemon.json 添加内容
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
  • 重启docker
systemctl daemon-reload && systemctl restart docker
  • 重启后验证
docker run --rm --gpus all nvidia/cuda:11.0.3-base nvidia-smi

在这里插入图片描述

2. 启动

  • ollama
docker run -d --restart=always -p 3001:11434 -v /home/ollama:/root/.ollama --gpus all --name ai-ollama docker.nju.edu.cn/ollama/ollama:0.1.38
  • open-webui
docker run -d --restart=always -p 3002:8080 -e OLLAMA_API_BASE_URL=http://127.0.0.1:3001/api \
-e HF_ENDPOINT=https://hf-mirror.com -v /home/open-webui-ollama:/app/backend/data \
--gpus all --name ai-open-webui ghcr.nju.edu.cn/open-webui/open-webui:git-7a556b2-ollama

3. 聊天对话

注册使用流程同上。
GPU:NVIDIA 2080 Ti 22 GB, 回答用时:17秒,GPU占用:80%,显存使用:8.3GB
在这里插入图片描述

四、Ollama接口

1. 运行模型

  • 需要8.3G显存
docker exec -it ai-ollama ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8:latest
  • 或 需要18G显存
docker exec -it ai-ollama ollama run qwen:32b

2. 流式对话

http://ip:3001/api/chat

{
	"model": "qwen:32b",
	"messages": [
		{
			"role": "user",
			"content": "简要回答AI的学习路径"
		}
	]
}

在这里插入图片描述

3. 单体对话

http://ip:3001/api/chat

{
	"model": "qwen:32b",
	"messages": [
		{
			"role": "user",
			"content": "简要回答AI的学习路径"
		}
	],
	"stream": false
}

在这里插入图片描述

4. 带历史记录对话

http://ip:3001/api/chat

{
	"model": "qwen:32b",
	"messages": [
		{
			"role": "user",
			"content": "简要回答AI的学习路径"
		},
		{
			"role": "assistant",
			"content": "再概括一些"
		}
	],
	"stream": false
}

在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值