llama.cpp部署在windows

本文详细描述了如何在Windows环境下部署LLAMA模型,包括配置conda环境、安装Cmake、处理头文件缺失问题,以及进行量化转换的过程,重点介绍了使用量化版本的LLAMA.cpp来避开显卡限制。
摘要由CSDN通过智能技术生成

本想部署LLAMA模型,但是基于显卡和多卡的要求,很难部署在个人笔记本上,因此搜索发现有一个量化版本的LLAMA.cpp,部署过程和踩过的坑如下:

1.配置环境

(1)在GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++中下载cpp到本地

(2)创建conda环境

conda create --name llama.cpp python=3.9 -y
pip install -r requirements.txt

(3)安装Cmake

在安装之前我们需要安装mingw, 避免编译时找不到编译环境, 按下win+r快捷键输入powershell,

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
iex "& {$(irm get.scoop.sh)} -RunAsAdmin"
scoop bucket add extras
scoop bucket add main
scoop install mingw

紧接着安装cmake

首先下载CMake官网下载地址:Download CMake

因为在安装过程中选择了自动添加环境,所以安装完后不用手动添加环境了,但是此时必须得重启电脑,变量才能使用,否则无法对Cmake安装进行测试。重启电脑后,打开cmd黑窗,输入cmake,能够显示cmake的一些信息即为安装成功,如下图:

Windows下CMake安装教程_window 安装cmake-CSDN博客

2.权重部署量化

先说结论,尝试了两种方法都不行,后来用的别人编译好的文件

(1)第一种方法

cmake . -G "MinGW Makefiles"
cmake --build . --config Release

但是会报错缺少头文件,搜了N个博客,依旧无法解决

D:\application\llama.cpp\ggml.c:290:10: fatal error: intrin.h: No such file or directory
  290 | #include <intrin.h>

(2)第二种方法

mkdir build
cd build
cmake ..
cmake --build . --config Release

报错Error: could not load cache,无法解决

(3)采用编译后的文件

LLama2 CPU Windows 部署-小白踩坑合集-CSDN博客


链接:https://pan.baidu.com/s/1NUeZNT3SlT5ZeSaW1WNvEA

提取码:hbib


nyanko7/LLaMA-7B at main (huggingface.co)中下载以下几个文件

并在llama.cpp根目录下创建org-models文件夹,将checklist.chk和tokenizer.model放在其中,再在org-models文件夹中创建7B文件夹,将consolidated.00.pth和params.json放入其中。

(4)量化

将7B模型(14G左右)转换成 ggml FP16模型,执行

python convert.py org-models\7B\

在 org-models\7B\中生成ggml-model-f16.gguf 文件,大约14G左右,将刚才转换好的FP16模型进行4-bit量化:

quantize.exe org-models\7B\ggml-model-f16.gguf org-models\7B\ggml-model-q4_0.gguf q4_0

在org-models\7B\中生成量化后的文件ggml-model-q4_0.gguf,然后进行推理

main.exe -m org-models\7B\ggml-model-q4_0.gguf -n 128

更换提示词

main.exe -m org-models\7B\ggml-model-q4_0.gguf --prompt "Once upon a time"

以上参考于

大模型部署手记(8)LLaMa2+Windows+llama.cpp+英文文本补齐-CSDN博客


 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Llama.cpp 是一个虚构的编程文件名,因此无法给出具体的编程训练过程。然而,我可以简单介绍一下通常的编程训练方法。 首先,为了训练 Llama.cpp 这个程序,我们需要了解所使用的编程语言和开发环境。根据具体情况,我们可以选择使用 C++、Java、Python 或其他编程语言来编写代码。此外,我们需要安装相应的开发环境,如 Visual Studio、Eclipse 或者 PyCharm。 接下来,我们需要设定训练目标。这可能是一个具体的问题或任务,例如编写一个简单的加法程序、设计一个实现某种功能的小游戏或者开发一个完整的应用程序。 在开始编写代码之前,我们应该对问题进行分析和规划。这包括确定所需的输入和输出,设计程序的结构和逻辑,以及选择合适的数据结构和算法。 然后,我们可以开始编写代码。可以使用文本编辑器或集成开发环境来创建和编辑程序文件。根据训练目标,我们可以使用不同的编程概念和语法,如变量、函数、循环和条件语句,来实现所需的功能。 编写代码后,我们需要进行测试和调试。可以编写一些测试用例来验证程序的正确性,并运行程序进行测试。通过调试技巧和工具,我们可以找到并修复潜在的错误和问题。 最后,我们可以优化代码,提高程序的性能和效率。这包括减少资源消耗、优化算法和数据结构,以及优化代码的可读性和可维护性。 通过不断的实践和训练,我们可以逐渐提升编程技能,并学会更多高级的编程概念和技术。在编程的旅程中,理解问题、设计解决方案、编写代码、测试和调试是一个循环迭代的过程。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值