Ollama本地部署 Win11 intel arc 显卡GPU加速

别管我死活

已于 2024-12-20 10:17:46 修改

阅读量8.8k

点赞数 5

文章标签： llama conda ai

于 2024-12-20 10:15:53 首次发布

本文链接：https://blog.csdn.net/lishiyu7/article/details/144593941

版权

Ollama本地部署 Win11 intel arc 显卡GPU加速

环境

支持c++开发
存在conda（miniconda, anaconda）都可
已部署ollama （没有的话可以先部署本地Ollama）

步骤

管理员身份运行anaconda prompt
开个llm环境

conda create -n llm python=3.11 libuv

激活环境

conda activate llm

安装 dpcpp-cpp-rt, mkl-dpcpp, 和 onednn 这些特定版本的包

pip install dpcpp-cpp-rt==2024.0.2 mkl-dpcpp==2024.0.0 onednn==2024.0.0

安装 Intel 的 ipex-llm 包及其 XPU 支持的预发布版本

pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/

下载IntelOneApi
Get the Intel® oneAPI Base Toolkit

3.验证安装

>>> conda activate llm
>>> set SYCL_CACHE_PERSISTENT=1
>>> python

>>>import torch 
from ipex_llm.transformers import AutoModel,AutoModelForCausalLM    
tensor_1 = torch.randn(1, 1, 40, 128).to('xpu') 
tensor_2 = torch.randn(1, 1, 128, 40).to('xpu') 
print(torch.matmul(tensor_1, tensor_2).size())

成功的话结果如下：

>>> torch.Size([1, 1, 40, 40])

在这里插入图片描述

4.创造llm-cpp环境配置并运行IPEX-LLM for llama.cpp

>>> conda create -n llm-cpp python=3.11
>>> conda activate llm-cpp
>>> pip install --pre --upgrade ipex-llm[cpp]
>>> mkdir llama-cpp
>>> cd llama-cpp

初始化 llama.cpp with IPEX-LLM

init-llama-cpp.bat

出现复制一堆软链接文件，到该目录下会看到
在这里插入图片描述
以上完成后，可以到对应的目录下面看到一堆软连接。

>>> init-ollama.bat
>>> set OLLAMA_NUM_GPU=999
>>> set no_proxy=localhost,127.0.0.1
>>> set ZES_ENABLE_SYSMAN=1
>>> set OLLAMA_HOST=0.0.0.0
>>> ollama serve

运行后该窗口不要关闭！！！！

新开一个anaconda窗口

ollama run llama3

开启问答模式，速度比之前快了一些
在这里插入图片描述

搬运来源：https://zhuanlan.zhihu.com/p/694516502
参考资料：https://test-bigdl-llm.readthedocs.io/en/main/doc/LLM/Quickstart/ollama_quickstart.html