奶奶看着教程部署了LlaMa2!真的能媲美GPT4吗?最新支持中文啦!部署试用教程

行业初期,希望更多人加入,推进行业发展!一意公众号四大功能!

#1 高质量数据集

我搭建了一个训练数据共享平台,目前已收录法律、金融、医疗、教育、诗词等超1T的人工标注数据集,还可以通过群内共享。

#2 报错或问题解决

你可能像我们NLP学习群中的同学一样,遇到各种报错或问题,我每天挑选5条比较有代表性的问题及解决方法贴出来,供大家避坑;每天更新,欢迎来蹲!

#3 运算加速方案

还有同学是几年前的老爷机/笔记本,GPU算力慢,我们应用了动态运输技术框架,直接提升超40%运算效率,无显卡2g内存就能跑,老爷机焕发第二春;

#4 微调训练教程

如果你还不知道该怎么微调训练模型,在这里还可以学训练和微调,跟着一步步做,你也能把大模型的知识真正应用到实处,产生价值。


开始今天正文!

一、模型简介

​llama2中文版,这个号称超过GPT3.5,媲美GPT4.0的开源大模型!对!他刚刚“被迫”开源了!

虽然开源了,但是因为中文训练样本实在太少了,导致他在中文语境下表现实在差强人意!


为此,在国内民间有不少优秀的项目使用大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力!

本次教程用到的正是这类项目,以下是GitHub项目地址:

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

二、权重下载
本次提供两个【完整版本】下载,具体下载什么版本,大家根据自己的需求点击就行,模型选择指引:

对比项中文LLaMA-2中文Alpaca-2
训练方式传统CLM指令精调
模型类型基座模型指令/Chat模型(类ChatGPT)
训练语料无标注通用语料有标注指令数据
词表大小55,29655,296
输入模板不需要需要套用特定模板[2],类似Llama-2-Chat
适用场景文本续写:给定上文,让模型生成下文指令理解:问答、写作、聊天、交互等
不适用场景指令理解 、多轮聊天等文本无限制自由生成

百度网盘获取指令:“中文llama2-7B”

特别说明:

1.下载之后就是完整版权重了!无需再下lora啦!

2.这里略过了python、cuda、pytorch等环境工具下载,自行下载即可啦!网上一大堆教程,难不倒你的~

三、使用llama.cpp量化部署

A.编译llama.cpp

解压刚刚下载的:w64devkit-1.19.0 ,然后运行w64devkit.exe,然后使用cd命令访问该llama.cpp文件夹。win+R键,“cmd”

cd/llama.cpp文件夹所在目录

回车,输入

make

B.生成量化版本模型

目前llama.cpp已支持.pth文件以及huggingface格式.bin的转换。

将完整模型权重转换为GGML的FP16格式,生成文件路径为zh-models/7B/ggml-model-f16.bin

进一步对FP16模型进行4-bit量化,生成量化模型文件路径为zh-models/7B/ggml-model-q4_0.bin

$ python convert.py zh-models/7B/$ ./quantize ./zh-models/7B/ggml-model-f16.bin ./zh-models/7B/ggml-model-q4_0.bin q4_0

C.加载并启动模型

由于本项目推出的Alpaca-2使用了Llama-2-chat的指令模板,请首先将本项目的scripts/llama-cpp/chat.sh拷贝至llama.cpp的根目录。

chat.sh文件的内容形如,内部嵌套了聊天模板和一些默认参数,可根据实际情况进行修改。

  • GPU推理:通过Metal编译则只需在./main中指定-ngl 1;cuBLAS编译需要指定offload层数,例如-ngl 40表示offload 40层模型参数到GPU

 
#!/bin/bash# temporary script to chat with Chinese Alpaca-2 model# usage: ./chat.sh alpaca2-ggml-model-path your-first-instructionSYSTEM='You are a helpful assistant. 你是一个乐于助人的助手。'FIRST_INSTRUCTION=$2./main -m $1 \--color -i -c 4096 -t 8 --temp 0.5 --top_k 40 --top_p 0.9 --repeat_penalty 1.1 -eps 1e-5 \--in-prefix-bos --in-prefix ' [INST] ' --in-suffix ' [/INST]' -p \"[INST] <<SYS>>$SYSTEM<</SYS>>$FIRST_INSTRUCTION [/INST]"
 

使用以下命令启动聊天。

$ chmod +x chat.sh$ ./chat.sh zh-models/7B/ggml-model-q4_0.bin '请列举5条文明乘车的建议'
 

在提示符 > 之后输入你的prompt,cmd/ctrl+c中断输出,多行信息以\作为行尾。如需查看帮助和参数说明,请执行./main -h命令。

下面介绍一些常用的参数:

-c 控制上下文的长度,值越大越能参考更长的对话历史(默认:512)-f 指定prompt模板,alpaca模型请加载prompts/alpaca.txt-n 控制回复生成的最大长度(默认:128)-b 控制batch size(默认:512)-t 控制线程数量(默认:8),可适当增加--repeat_penalty 控制生成回复中对重复文本的惩罚力度--temp 温度系数,值越低回复的随机性越小,反之越大--top_p, top_k 控制解码采样的相关参数

自此,已经部署完成

不得不说

llama2开源给整个行业带来不小的冲击,目前有7B、13B、70B三种尺寸,预训练阶段使用了2万亿Token,SFT阶段使用了超过10w数据,人类偏好数据超过100w。

非常自信的MetaAI。啥也不说,上来先show一副评估对比图,我就问OpenAI你服不服,skr?

7B只是试用,接下来雄哥会继续跟进,更新更多70B级别的微调训练,敬请围观!

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一意AI增效家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值