Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,XTuner 团队对 Llama 3 微调进行了光速支持!!!同时开源社区中涌现了 Llama3-XTuner-CN 手把手教大家使用 XTuner 微调 Llama 3 模型。
1. Llama 3 概览
首先我们来回顾一下 Llama 3 亮点概览~
- 首次出现 8B 模型,且 8B 模型与 70B模型全系列使用 GQA (Group Query Attention)。
- 最大模型达到 400B 规模大小,未来几个月内发布!
- 分词器由 SentencePiece 换为了 Tiktoken,与 GPT4 保持一致。
- 相比于 Llama2 的 32000 词表大小,Llama3 的词表大小来到了惊人的 128256。
- 数据方面上,Llama3 使用了约 15T token 用于模型的训练。
- 开源模型大小为 8B 和 70B 两种,每种规模均有开源基座模型和 instruct 模型。
- Llama3 8B Instruct 模型在数学与代码能力方面数倍于 Llama2 7B chat 模型。
2. 2*A100 即可全量微调 8K 上下文 Llama3 8B
在正式实战之前我们先看一下 XTuner 团队对 Llama 3 8B 的性能测试结果,XTuner 团队在 Llama 3 发布之后光速进行了支持并进行了测速,以下使用不同数量 GPU 全量微调 Llama3 8B 时的训练效率,仅需 2 * A100 80G 即可全量微调 8k 上下文 Llama3 8B。
使用 8 * A100 80G 全量微调不同上下文长度的 Llama3 8B 时的训练效率
3. 实践教程
3.1 Web Demo 部署
本小节将带大家手把手在 InternStudio 部署 Llama3 Web Demo。
环境配置
conda create -n llama3 python=3.10
conda activate llama3
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
conda install git
git-lfs install
下载 Llama3 模型
首先通过 OpenXLab 下载 Llama-3-8B-Instruct 这个模型。
mkdir -p ~/model
cd ~/model
git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct
或者软链接 InternStudio 中的模型
ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct \
~/model/Meta-Llama-3-8B-Instruct
安装 XTuner
cd ~
git clone -b v0.1.18 https://github.com/InternLM/XTuner
cd XTuner
pip install -e .
运行 web_demo.py
streamlit run ~/Llama3-XTuner-CN/tools/internstudio_web_demo.py \
/root/model/Llama-3-8B-Instruct
通过此命令我们就成功本地运行 Llama3 的 Web Demo, 然后就可以和Llama3-Instruct愉快的对话了,此时问“你是”,模型的自我认识是 Llama。
3.2 XTuner 微调 Llama 3 个人小助手认知
在本节我们尝试让 Llama3 有"它是SmartFlowAI打造的人工智能助手"的自我认知,最终效果图如下所示:
自我认知训练数据集准备
首先我们通过以下脚本制作自我认知的数据集
cd ~/Llama3-XTuner-CN
python tools/gdata.py
数据生成脚本 gdata.py 如下所示,实现了产生 2000 条自我认知的数据的功能,在正式环境中我们需要对各种数据进行配比,为了社区同学们能够快速上手,本例子就采用了过拟合的方式。
import json
# 输入你的名字或者机构
name = 'SmartFlowAI'
# 重复次数
n = 2000
data = [
{
"conversation": [
{
"system":"你是一个懂中文的小助手",
"input": "你是(请用中文回答)",
"output": "您好,我是 {},一个由 SmartFlowAI 打造的人工智能助手,请问有什么可以帮助您的吗?".format(name)
}
]
}
]
for i in range(n):
data.append(data[0])
with open('data/personal_assistant.json', 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=4)
以上脚本在生成了 ~/Llama3-XTuner-CN/data/personal_assistant.json 数据文件格式如下所示:
[ { "conversation": [ { "system": "你是一个懂中文的小助手", "input": "你是(请用中文回答)", "output": "您好,我是SmartFlowAI,一个由 SmartFlowAI 打造的人工智能助手,请问有什么可以帮助您的吗?" } ]
},
{
"conversation": [
{
"system": "你是一个懂中文的小助手",
"input": "你是(请用中文回答)",
"output": "您好,我是SmartFlowAI,一个由 SmartFlowAI 打造的人工智能助手,请问有什么可以帮助您的吗?"
}
]
},
········· 此处省略
]
XTuner 配置文件准备
小编在 XTuner 官方的 config 基础上修改了模型路径等关键参数,为大家直接准备好了 配置文件,可以直接享用~
训练模型
cd /root/project/llama3-ft
xtuner train configs/assistant/llama3_8b_instruct_qlora_assistant.py --work-dir /root/llama3_pth
# Adapter PTH 转 HF 格式
xtuner convert pth_to_hf /root/llama3_pth/llama3_8b_instruct_qlora_assistant.py \
/root/llama3_pth/iter_500.pth \
/root/llama3_hf_adapter
# 模型合并
export MKL_SERVICE_FORCE_INTEL=1
xtuner convert merge /root/model/Meta-Llama-3-8B-Instruct \
/root/llama3_hf_adapter\
/root/llama3_hf_merged
推理验证
streamlit run ~/Llama3-XTuner-CN/tools/internstudio_web_demo.py \
/root/llama3_hf_merged
到此为止我们就让 Llama3 具备了“他是由SmartFlowAI 打造的人工智能助手”的个人认知,本文演示平台为 InternStudio,如其他平台只需适当调整相关路径也能比较顺畅的运行起来,XTuner 玩转 Llama3 图片理解更多玩法请参考:[github.com/SmartFlowAI…]。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓