llama.cpp部署在windows

最新推荐文章于 2025-04-14 15:30:44 发布

_Never_stop_

最新推荐文章于 2025-04-14 15:30:44 发布

阅读量4.6k

点赞数 2

文章标签： llama

本文链接：https://blog.csdn.net/road_of_god/article/details/133901390

版权

本文详细描述了如何在Windows环境下部署LLAMA模型，包括配置conda环境、安装Cmake、处理头文件缺失问题，以及进行量化转换的过程，重点介绍了使用量化版本的LLAMA.cpp来避开显卡限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本想部署LLAMA模型，但是基于显卡和多卡的要求，很难部署在个人笔记本上，因此搜索发现有一个量化版本的LLAMA.cpp，部署过程和踩过的坑如下：

1.配置环境

（1）在GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++中下载cpp到本地

（2）创建conda环境

conda create --name llama.cpp python=3.9 -y
pip install -r requirements.txt

（3）安装Cmake

在安装之前我们需要安装mingw, 避免编译时找不到编译环境, 按下win+r快捷键输入powershell，

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
iex "& {$(irm get.scoop.sh)} -RunAsAdmin"
scoop bucket add extras
scoop bucket add main
scoop install mingw

紧接着安装cmake

首先下载CMake官网下载地址：Download CMake

因为在安装过程中选择了自动添加环境，所以安装完后不用手动添加环境了，但是此时必须得重启电脑，变量才能使用，否则无法对Cmake安装进行测试。重启电脑后，打开cmd黑窗，输入cmake，能够显示cmake的一些信息即为安装成功，如下图：

Windows下CMake安装教程_window 安装cmake-CSDN博客

2.权重部署量化

先说结论，尝试了两种方法都不行，后来用的别人编译好的文件

（1）第一种方法

cmake . -G "MinGW Makefiles"
cmake --build . --config Release

但是会报错缺少头文件，搜了N个博客，依旧无法解决

D:\application\llama.cpp\ggml.c:290:10: fatal error: intrin.h: No such file or directory
  290 | #include <intrin.h>

（2）第二种方法

mkdir build
cd build
cmake ..
cmake --build . --config Release

报错Error: could not load cache，无法解决

（3）采用编译后的文件

LLama2 CPU Windows 部署-小白踩坑合集-CSDN博客

链接：https://pan.baidu.com/s/1NUeZNT3SlT5ZeSaW1WNvEA

提取码：hbib

在nyanko7/LLaMA-7B at main (huggingface.co)中下载以下几个文件

并在llama.cpp根目录下创建org-models文件夹，将checklist.chk和tokenizer.model放在其中，再在org-models文件夹中创建7B文件夹，将consolidated.00.pth和params.json放入其中。

（4）量化

将7B模型（14G左右）转换成 ggml FP16模型，执行

python convert.py org-models\7B\

在 org-models\7B\中生成ggml-model-f16.gguf 文件，大约14G左右，将刚才转换好的FP16模型进行4-bit量化：

quantize.exe org-models\7B\ggml-model-f16.gguf org-models\7B\ggml-model-q4_0.gguf q4_0

在org-models\7B\中生成量化后的文件ggml-model-q4_0.gguf，然后进行推理

main.exe -m org-models\7B\ggml-model-q4_0.gguf -n 128

更换提示词

main.exe -m org-models\7B\ggml-model-q4_0.gguf --prompt "Once upon a time"

以上参考于

大模型部署手记（8）LLaMa2+Windows+llama.cpp+英文文本补齐-CSDN博客