Ai学习之Ollama使用GPU运行模型的环境部署

本文将介绍Ollama使用GPU运行模型的环境部署

1.背景介绍

        对于像Llama 3 8B这样的小模型,使用CPU或集成显卡可以很好地工作。然而,如果您的计算机有Nvidia独立显卡,并且您希望运行更大的模型或实现更快的响应时间,您需要安装CUDA Toolkit以更好地利用独立显卡。

注意:使用GPU加速仅适用于具有计算能力5.0以上的Nvidia GPU。如果您使用的是AMD GPU,您可以查看支持的设备列表以确认您的显卡是否受Ollama支持。然而,CUDA Toolkit仅适用于Nvidia GPU,AMD GPU未深究。

GPU支持信息:ollama-doc/ollama/docs/Ollama 对GPU 支持信息.md at main · qianniucity/ollama-doc

Ollama支持的AMD GPU

系列 显卡和加速器
AMD Radeon RX 7900 XTX 7900 XT 7900 GRE 7800 XT 7700 XT 7600 XT 7600 6950 XT 6900 XTX 6900XT 6800 XT 6800 Vega 64 Vega 56
AMD Radeon PRO W7900 W7800 W7700 W7600 W7500 W6900X W6800X Duo W6800X W6800 V620 V420 V340 V320 Vega II Duo Vega II VII SSG
AMD Instinct MI300X MI300A MI300 MI250X MI250 MI210 MI200 MI100 MI60 MI50

Nvidia GPU用户应检查您的计算能力以确认您的显卡是否受支持:CUDA GPUs - Compute Capability | NVIDIA Developer

计算能力

系列 显卡
9.0 NVIDIA H100
8.9 GeForce RTX 40xx RTX 4090 RTX 4080 SUPER RTX 4080 RTX 4070 Ti SUPER RTX 4070 Ti RTX 4070 SUPER RTX 4070 RTX 4060 Ti RTX 4060
NVIDIA Professional L4 L40 RTX 6000
8.6 GeForce RTX 30xx RTX 3090 Ti RTX 3090 RTX 3080 Ti RTX 3080 RTX 3070 Ti RTX 3070 RTX 3060 Ti RTX 3060
NVI
### 配置 Ollama 使用 GPU 加速 为了使 Ollama 能够利用 GPU 进行加速,需按照特定步骤来设置环境。这涉及到了解如何通过 Docker 和 NVIDIA 工具包集成 GPU 支持。 #### 修改 `docker-compose` 文件以支持 GPU 当在 1Panel 应用市场上完成 Ollama 的默认安装之后,要编辑其对应的 `docker-compose.yml` 文件,在服务定义部分加入必要的参数以便激活 GPU 功能[^1]: ```yaml version: '3' services: ollama: image: ollama/ollama deploy: resources: reservations: devices: - capabilities: [gpu] volumes: - /opt/ai/ollama:/root/.ollama ports: - "11434:11434" ``` 此配置确保容器启动时会请求分配可用的 GPU 设备给该进程使用。 #### 安装 NVIDIA Container Toolkit 对于基于 Linux 的系统来说,为了让 Docker 可识别并管理主机上的 GPU 资源,需要先安装 NVIDIA 提供的一套名为 NVIDIA Container Toolkit 的工具集。命令如下所示[^2]: ```bash sudo apt-get update && \ sudo apt-get install -y nvidia-container-toolkit && \ sudo systemctl restart docker ``` 上述指令更新了软件包列表,并安装了所需的 NVIDIA 组件用于容器化环境中调用 GPU;最后重启 Docker 服务使得更改生效。 #### 启动带有 GPU 支持的 Ollama 实例 一旦完成了前面提到的所有准备工作,则可以通过指定 `--gpus all` 参数来创建一个新的带 GPU 访问权限的 Ollama 容器实例: ```bash docker run --gpus all -d -v /opt/ai/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama ``` 这条命令指定了所有的 GPU 将被当前运行中的容器所占用,并映射端口以及挂载数据卷到宿主机相应位置上。 #### 下载预训练模型 有了已经正确设置了 GPU 加速选项后的 Ollama 环境后,可以进一步加载想要使用AI 模型。例如下载 Qwen-7B 模型可执行下面这段 shell 命令: ```bash docker exec -it ollama ollama run qwen:7b ``` 这样就能够在拥有强大图形处理能力的支持下高效地测试和部署各种大型语言模型了。
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值