windows安装并编译llama.cpp步骤，亲测可用

英特耐雄耐尔一定要实现！

已于 2025-05-22 15:27:24 修改

阅读量394

点赞数 9

文章标签： llama

于 2025-05-22 15:23:26 首次发布

本文链接：https://blog.csdn.net/m0_73156481/article/details/148141032

版权

一、下载visual studio

下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux

选择c++桌面开发

二、下载cmake

Download CMake

三、下载CUDA toolkits（需要GPU加速可选）

CUDA Toolkit - Free Tools and Training | NVIDIA Developer

四、安装 curl（需要联网下载模型可选）

git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
.\bootstrap-vcpkg.bat
.\vcpkg install curl:x64-windows

需手动新建模型下载目录C:\Users\Administrator\AppData\Local\llama.cpp

五、下载llama.cpp源代码并编译：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release

        -B build：指定构建目录为 ./build。
        -DGGML_CUDA=ON：启用 CUDA 支持（需已安装 CUDA 工具包）。
        -DLLAMA_CURL=ON：启用 CURL 支持（需已安装 curl）

六、进入build\bin\Release目录开始使用llama

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

英特耐雄耐尔一定要实现！

关注关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Llama.cpp 服务器安装指南（使用 Docker，GPU 专用）

canduecho的专栏

02-27

1063

构建服务器镜像-t：命名镜像为。：仅构建服务器版本。-f：指定修改后的。：使用当前目录作为构建上下文。构建时间：10-20 分钟，取决于网络和机器性能。验证。

大模型部署工具 llama.cpp 介绍与安装使用

youmaob的博客

04-07

1万+

另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

参与评论您还未登录，请先登录后发表或查看评论

windows下部署llama.cpp

qq_36437991的博客

04-01

3369

windows下部署llama.cpp

llama.cpp量化模型以及ollama部署（Windows）

m0_69947303的博客

04-14

1110

【代码】llama.cpp量化模型以及ollama部署（Windows）

【Llama2 windows部署详细教程】第二节：llama.cpp成功在windows上编译的秘诀

oandy0的博客

01-20

2961

Llama2 开源大模型推出之后，因需要昂贵的算力资源，很多小伙伴们也只能看看。好在llama.cpp推出之后，可对模型进行量化，量化之后模型体积显著变小，以便能在windows CPU环境中运行，为了避免小伙伴们少走弯路。

在线或离线llama.cpp安装和模型启动

hahaha_1112的博客

01-10

3945

先附上llama.cpp的github地址：https://github.com/ggerganov/llama.cpp，build地址：https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md。如果需要在内网服务器中安装，可以下载llama.cpp的源码文件或二进制文件，下载地址：https://github.com/ggerganov/llama.cpp/releases。，如果没有可以跳过，如果有请按照我的以下流程安装一遍。

第一弹：llama.cpp编译

joedan0104的专栏

09-25

7836

1.编译llama.cpp命令行（电脑版本）；2.交叉编译安卓命令行版本。

windows上搭建llama小型私有模型

wuanwujie的博客

09-24

3614

导言目标一、命令行运行大模型llama安装前的准备运行大模型二、使用python调用模型环境准备使用langchain调用llama模型欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Markdown。

在低配Windows上部署原版llama.cpp

haleycat的博客

06-20

8203

现在大语言模型的部署，通常都需要大的GPU才能实现，如果是仅仅想研究一下，大语言模型的算法，我们是很想能够直接在我们的工作电脑上就能直接运行的，llama.cpp就是很好的实现。LLaMa.cpp使用int4这种数值格式，其显著降低了内存需求，并且在大多数硬件上其性能严重受到内存限制。LLaMa.cpp使用原始C ++的项目来重写LLaMa（长格式语言模型）推理代码。这使得可以在各种硬件上本地运行LLaMa，包括。在使用一些优化和量化技术来量化权重的情况下，LLaMa.cpp。

无需云端！国产开源大语言模型llama.cpp本地实战

虽非技冠群英首，愿与同道共长歌；大鹏一日同风起，扶摇直上九万里；

11-09

1541

作者：高瑞冬文章是2023年底写的。代码和运行方式现在有些旧了。但是基本的原理是一样的。现在也出来ollama，vllm等工具框架用来本地部署大模型。有空再更新一下。背景。

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）