Ollama本地部署 Win11 intel arc 显卡GPU加速

Ollama本地部署 Win11 intel arc 显卡GPU加速

环境

  • 支持c++开发
  • 存在conda(miniconda, anaconda)都可
  • 已部署ollama (没有的话可以先 部署本地Ollama

步骤

  1. 管理员身份运行anaconda prompt
    开个llm环境
conda create -n llm python=3.11 libuv

激活环境

conda activate llm

安装 dpcpp-cpp-rt, mkl-dpcpp, 和 onednn 这些特定版本的包

pip install dpcpp-cpp-rt==2024.0.2 mkl-dpcpp==2024.0.0 onednn==2024.0.0

安装 Intel 的 ipex-llm 包及其 XPU 支持的预发布版本

pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/
  1. 下载IntelOneApi
    Get the Intel® oneAPI Base Toolkit
    在这里插入图片描述
    3.验证安装
>>> conda activate llm
>>> set SYCL_CACHE_PERSISTENT=1
>>> python
>>>import torch 
from ipex_llm.transformers import AutoModel,AutoModelForCausalLM    
tensor_1 = torch.randn(1, 1, 40, 128).to('xpu') 
tensor_2 = torch.randn(1, 1, 128, 40).to('xpu') 
print(torch.matmul(tensor_1, tensor_2).size()) 

成功的话结果如下:

>>> torch.Size([1, 1, 40, 40])

在这里插入图片描述

4.创造llm-cpp环境 配置并运行IPEX-LLM for llama.cpp

>>> conda create -n llm-cpp python=3.11
>>> conda activate llm-cpp
>>> pip install --pre --upgrade ipex-llm[cpp]
>>> mkdir llama-cpp
>>> cd llama-cpp

初始化 llama.cpp with IPEX-LLM

init-llama-cpp.bat

出现复制一堆软链接文件,到该目录下会看到
在这里插入图片描述
以上完成后,可以到对应的目录下面看到一堆软连接。
在这里插入图片描述

>>> init-ollama.bat
>>> set OLLAMA_NUM_GPU=999
>>> set no_proxy=localhost,127.0.0.1
>>> set ZES_ENABLE_SYSMAN=1
>>> set OLLAMA_HOST=0.0.0.0
>>> ollama serve

运行后该窗口不要关闭!!!!

新开一个anaconda窗口

ollama run llama3

开启问答模式,速度比之前快了一些
在这里插入图片描述


搬运来源:https://zhuanlan.zhihu.com/p/694516502
参考资料:https://test-bigdl-llm.readthedocs.io/en/main/doc/LLM/Quickstart/ollama_quickstart.html

### 将 Ollama 部署Intel 集成显卡上的具体步骤 #### 准备工作 为了确保顺利部署,需确认系统满足基本条件并安装必要的依赖项。对于 Windows 11Intel Arc 显卡的情况,在管理员权限下启动 Anaconda Prompt 创建专门用于 LLM 的 Python 环境[^3]。 ```bash conda create -n llm python=3.11 libuv ``` 激活新创建的环境: ```bash conda activate llm ``` #### 获取适用于 Intel GPU 加速的支持包 针对 Intel GPU 版本的 Ollama 发布文件可以从官方 GitHub 页面获取特定版本。由于当前文档未提供直接链接至 Intel GPU 专用二进制文件的位置,建议访问 [Ollama Releases](https://github.com/ollama/ollama/releases/) 并查找带有 `intel` 或者与 Intel 设备兼容标签的发行版来下载适合 Intel 架构的软件包[^2]。 假设找到了名为 `ollama-windows-intel-gpu.zip` 的压缩包,则按照常规流程解压该档案至目标目录;如果是以 `.tgz` 形式分发,则采用如下命令处理(注意路径调整): ```bash tar -xzf ollama-windows-intel-gpu.tgz -C C:\path\to\destination ``` #### 安装额外驱动程序和支持库 除了上述操作外,还需要为 Intel GPU 安装相应的驱动程序以启用硬件加速功能。这通常涉及从英特尔官方网站下载最新的图形驱动更新,并遵循其提供的说明完成整个过程。此外,可能也需要安装一些辅助工具或 SDK 来增强性能表现,比如 oneAPI Base Toolkit 及 DPC++ Runtime for Linux/macOS/Windows (取决于操作系统)。 #### 测试安装成果 最后一步是在终端内调用刚设置好的 Ollama 实例来进行简单的测试查询,验证一切正常运作无误。可以通过执行以下指令实现这一点: ```python import os from ollama import Model model_path = "C:\\path\\to\\installed_ollama" os.environ['OLLAMA_MODEL_PATH'] = model_path test_model = Model() response = test_model.predict("What is the capital of France?") print(response) ``` 以上代码片段展示了如何加载预训练模型并通过它做出预测。当然实际应用中应当替换掉 `"C:\\path\\to\\installed_ollama"` 这一部分为你自己的安装位置。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值