随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题,在单机多卡或者多机多卡进行模型训练。
最近一段时间,我也在探索大模型相关的一些技术,下面做一个简单的总结。
大模型实践文章
下面是最近大模型实践过程中的一些文章,配套代码放置在GitHub:llm-action
LLM训练:
| LLM | 预训练/微调/RLHF... | 参数 | 教程 | 代码 |
|---|---|---|---|---|
| Alpaca | full fine-turning | 7B | 从0到1复现斯坦福羊驼(Stanford Alpaca 7B) | N/A |
| Alpaca | lora | 7B | 1. 足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼 2. 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理 |
配套代码 |
| BELLE(LLaMA-7B/Bloomz-7B1-mt) | full fine-turning | 7B | 1. 基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化 2. BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试 |
N/A |
| ChatGLM | lora | 6B | 从0到1基于ChatGLM-6B使用LoRA进行参数高效微调 | N/A |
| ChatGLM | full fine-turning/P-Tuning v2 | 6B | 使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调 | N/A |
| Vicuna | full fine-turning | 7B | 大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼 | N/A |
| OPT | RLHF | N/A | 1. 一键式 RLHF 训练 DeepSpeed Chat(一):理论篇 2. 一键式 RLHF 训练 DeepSpeed Chat(二):实践篇 |
N/A |
| MiniGPT-4 | full fine-turning | 7B | 大杀器,多模态大模型MiniGPT-4入坑指南 | N/A |
| Chinese-LLaMA-Alpaca | lora(预训练+微调) | 7B | 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理 | 配套代码 |
LLM推理:

最低0.47元/天 解锁文章
1293

被折叠的 条评论
为什么被折叠?



