Llama2 开源大模型推出之后,因需要昂贵的算力资源,很多小伙伴们也只能看看。好在llama.cpp推出之后,可对模型进行量化,量化之后模型体积显著变小,以便能在windows CPU环境中运行,为了避免小伙伴们少走弯路,下面将详细介绍llama.cpp在windows上的编译步骤:
1.下载llama.cpp
通过以下下载地址,下载llama.cpp,注意不要放在中文目录。
https://github.com/ggerganov/llama.cpp
2.编译llama.cpp
网上在Linux环境中编译的教程比较多,windows上也有些采用cmake编译的方式,这种方式编译很难成功,过程也复杂。这里将采用官方提供的软件来进行编译,通过w64devkit软件进行编译。
2.1 下载w64devkit
建议下载最新的版本,下载地址如下:
https://github.com/skeeto/w64devkit/releases
2.2 安装并运行w64devkit
下载下来的w64devkit包,直接解压,注意不要有中文目录,解压后双击w64devkit.exe运行,将出现命令行窗口
2.3 开始编译
在上面命令行窗口cd到llama.cpp的根目录中,也就是有make文件的目录,然后执行以下命令:
make
执行命令后将开始编译,如下图所示:
根据以上步骤即可完成编译,完成编译了就成功了一大半,接下来部署llama2将会顺利很多。