【Llama2 windows部署详细教程】第三节 Llama2 跑起来

        前面两节主要介绍了基础环境的准备,借下来就是对Llam2模型进行量化并运行起来,这个过程在实际的部署过程中也很容易出现问题。具体的部署如下:

        一、下载模型

        目前大模型主要发布在Hugging Face上提供下载,无法在上面下载的小伙伴可以在国内的ModelScope网站上下载,模型文件比较大,下载过程中需要确保网络顺畅,下载方式如下:

git clone https://www.modelscope.cn/shakechen/Llama-2-7b.git

下载下来的模型文件如下:

        二、模型量化

        为确保模型能够顺利在windows上运行,需要通过llama.cpp对模型进行量化,这里采用4bit量化的方式。

        1.复制模型到新的文件夹        

将模型复制一份,主要是为了不影像下载的模型文件。

        2.安装模型依赖

        CMD 命令cd到llama.cpp的根目录,然后执行python安装依赖包的命令:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

        3.转换成hungingface可以识别的文件

        这一步非常重要,很多小伙伴在做模型量化的时候,可能会出现缺少config.json的错误提示,这一步通过转换为hungingface可以识别的文件后,才能通过llama.cpp进行量化。具体如下:

python D:\Anaconda3\envs\llm\Lib\site-packages\transformers\models\llama\convert_llama_weights_to_hf.py --input_dir C:\work\llm\Llama-2-7b --model_size 7B  --output_dir C:\work\llm\7b-4bit

这里是通过 transformers的 convert_llama_weights_to_hf.py进行转换的,这个依赖模块是上述第二步进行安装的,只要找到安装成功后的目录,就可以找到这个文件。“C:\work\llm\Llama-2-7b”这个目录为下载的模型文件的原始目录,“C:\work\llm\7b-4bit”这个目录为新建的保存量化后的模型文件目录。

        4.安装accelerate模块

         在执行量化操作后可能会提示缺少accelerate模块,安装这个模块即可解决:

pip install accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

        5.模型转换

       同样CMD命令行cd到llama.cpp根目录,执行以下命令:

python convert.py C:\work\llm\7b-4bit

转换成功后的效果如下:

        6.模型量化

        转换成功后,即可开始对模型文件进行量化。执行如下命令:

quantize.exe C:\work\llm\7b-4bit\ggml-model-f16.gguf  C:\work\llm\7b-4bit\ggml-model-q4_0.gguf q4_0

  量化成功后效果如下:      

三、模型推理

模型量化成功后,即可开始推模型进行推理。本步骤同样需要在llama.cpp根目录下进行操作。

main.exe -m C:\work\llm\7b-4bit\ggml-model-q4_0.gguf --prompt "what is the weathermain.exe -m C:\work\llm\7b-4bit\ggml-model-q4_0.gguf --prompt "what is the weather today?" s the weather today?"

如果顺利出现以下内容,则表示正式运行成功。

以上就是完整的步骤,小伙伴们可以动手尝试一下,如果出现问题可以在评论区交流! 

  • 20
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值