奶奶看着教程部署了LlaMa2！真的能媲美GPT4吗？最新支持中文啦！部署试用教程

本文链接：https://blog.csdn.net/ouhuixiong/article/details/132074484

行业初期，希望更多人加入，推进行业发展！一意公众号四大功能！

#1 高质量数据集

我搭建了一个训练数据共享平台，目前已收录法律、金融、医疗、教育、诗词等超1T的人工标注数据集，还可以通过群内共享。

#2 报错或问题解决

你可能像我们NLP学习群中的同学一样，遇到各种报错或问题，我每天挑选5条比较有代表性的问题及解决方法贴出来，供大家避坑；每天更新，欢迎来蹲！

#3 运算加速方案

还有同学是几年前的老爷机/笔记本，GPU算力慢，我们应用了动态运输技术框架，直接提升超40%运算效率，无显卡2g内存就能跑，老爷机焕发第二春；

#4 微调训练教程

如果你还不知道该怎么微调训练模型，在这里还可以学训练和微调，跟着一步步做，你也能把大模型的知识真正应用到实处，产生价值。

开始今天正文！

一、模型简介

llama2中文版，这个号称超过GPT3.5，媲美GPT4.0的开源大模型！对！他刚刚“被迫”开源了！

虽然开源了，但是因为中文训练样本实在太少了，导致他在中文语境下表现实在差强人意！

为此，在国内民间有不少优秀的项目使用大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力！

本次教程用到的正是这类项目，以下是GitHub项目地址：

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

二、权重下载
本次提供两个【完整版本】下载，具体下载什么版本，大家根据自己的需求点击就行，模型选择指引：

对比项	中文LLaMA-2	中文Alpaca-2
训练方式	传统CLM	指令精调
模型类型	基座模型	指令/Chat模型（类ChatGPT）
训练语料	无标注通用语料	有标注指令数据
词表大小	55,296	55,296
输入模板	不需要	需要套用特定模板[2]，类似Llama-2-Chat
适用场景	文本续写：给定上文，让模型生成下文	指令理解：问答、写作、聊天、交互等
不适用场景	指令理解、多轮聊天等	文本无限制自由生成

百度网盘获取指令：“中文llama2-7B”

特别说明：

1.下载之后就是完整版权重了！无需再下lora啦！

2.这里略过了python、cuda、pytorch等环境工具下载，自行下载即可啦！网上一大堆教程，难不倒你的~

三、使用llama.cpp量化部署

A.编译llama.cpp

解压刚刚下载的：w64devkit-1.19.0 ，然后运行w64devkit.exe，然后使用cd命令访问该llama.cpp文件夹。win+R键，“cmd”

cd/llama.cpp文件夹所在目录

回车，输入

make

B.生成量化版本模型

目前llama.cpp已支持.pth文件以及huggingface格式.bin的转换。

将完整模型权重转换为GGML的FP16格式，生成文件路径为zh-models/7B/ggml-model-f16.bin。

进一步对FP16模型进行4-bit量化，生成量化模型文件路径为zh-models/7B/ggml-model-q4_0.bin。

$ python convert.py zh-models/7B/$ ./quantize ./zh-models/7B/ggml-model-f16.bin ./zh-models/7B/ggml-model-q4_0.bin q4_0

C.加载并启动模型

由于本项目推出的Alpaca-2使用了Llama-2-chat的指令模板，请首先将本项目的scripts/llama-cpp/chat.sh拷贝至llama.cpp的根目录。

chat.sh文件的内容形如，内部嵌套了聊天模板和一些默认参数，可根据实际情况进行修改。

GPU推理：通过Metal编译则只需在./main中指定-ngl 1；cuBLAS编译需要指定offload层数，例如-ngl 40表示offload 40层模型参数到GPU

#!/bin/bash# temporary script to chat with Chinese Alpaca-2 model# usage: ./chat.sh alpaca2-ggml-model-path your-first-instructionSYSTEM='You are a helpful assistant. 你是一个乐于助人的助手。'FIRST_INSTRUCTION=$2./main -m $1 \--color -i -c 4096 -t 8 --temp 0.5 --top_k 40 --top_p 0.9 --repeat_penalty 1.1 -eps 1e-5 \--in-prefix-bos --in-prefix ' [INST] ' --in-suffix ' [/INST]' -p \"[INST] <<SYS>>$SYSTEM<</SYS>>$FIRST_INSTRUCTION [/INST]"

使用以下命令启动聊天。

$ chmod +x chat.sh$ ./chat.sh zh-models/7B/ggml-model-q4_0.bin '请列举5条文明乘车的建议'

在提示符 > 之后输入你的prompt，cmd/ctrl+c中断输出，多行信息以\作为行尾。如需查看帮助和参数说明，请执行./main -h命令。

下面介绍一些常用的参数：

-c 控制上下文的长度，值越大越能参考更长的对话历史（默认：512）-f 指定prompt模板，alpaca模型请加载prompts/alpaca.txt-n 控制回复生成的最大长度（默认：128）-b 控制batch size（默认：512）-t 控制线程数量（默认：8），可适当增加--repeat_penalty 控制生成回复中对重复文本的惩罚力度--temp 温度系数，值越低回复的随机性越小，反之越大--top_p, top_k 控制解码采样的相关参数

自此，已经部署完成

不得不说

llama2开源给整个行业带来不小的冲击，目前有7B、13B、70B三种尺寸，预训练阶段使用了2万亿Token，SFT阶段使用了超过10w数据，人类偏好数据超过100w。

非常自信的MetaAI。啥也不说，上来先show一副评估对比图，我就问OpenAI你服不服，skr？

7B只是试用，接下来雄哥会继续跟进，更新更多70B级别的微调训练，敬请围观！