llm-action：让天下没有难学的大模型

模型优化师

已于 2024-09-05 09:10:28 修改

阅读量850

点赞数 10

文章标签：人工智能 ai 大模型语言模型 agi LLM 微调

于 2024-08-09 09:00:00 首次发布

本文链接：https://blog.csdn.net/2401_85325557/article/details/141031375

版权

在这里插入图片描述

项目大体如下所示：

🔥 LLM训练
🐫 LLM训练实战
🐼 LLM参数高效微调技术原理综述
🐰 LLM参数高效微调技术实战
🐘 LLM分布式训练并行技术
🌋 分布式AI框架
📡 分布式训练网络通信
🐎 LLM推理
🚀 LLM推理框架
✈️ LLM推理优化技术
♻️ LLM压缩
📐 LLM量化
🔰 LLM剪枝
💹 LLM知识蒸馏
♑️ 低秩分解
♍️ LLM算法架构
🧩 LLM应用开发
🀄️ LLM国产化适配
🔯 AI编译器
🔘 AI基础设施
💟 LLMOps
🍄 LLM生态相关技术
🔨 服务器基础环境安装及常用工具
💬 LLM学习交流群

LLM训练

LLM训练实战

下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。

LLM	预训练/SFT/RLHF…	参数	教程	代码
Alpaca	full fine-turning	7B	从0到1复现斯坦福羊驼（Stanford Alpaca 7B）	配套代码
Alpaca(LLaMA)	LoRA	7B~65B	1.足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼

使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理 | 配套代码 |
| BELLE(LLaMA/Bloom) | full fine-turning | 7B | 1.基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化
BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试 | N/A |
| ChatGLM | LoRA | 6B | 从0到1基于ChatGLM-6B使用LoRA进行参数高效微调 | 配套代码 |
| ChatGLM | full fine-turning/P-Tuning v2 | 6B | 使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调 | 配套代码 |
| Vicuna(LLaMA) | full fine-turning | 7B | 大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼 | N/A |
| OPT | RLHF | 0.1B~66B | 1.一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇
2. 一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇 | 配套代码 |
| MiniGPT-4(LLaMA) | full fine-turning | 7B | 大杀器，多模态大模型MiniGPT-4入坑指南 | N/A |
| Chinese-LLaMA-Alpaca(LLaMA) | LoRA（预训练+微调） | 7B | 中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调 | 配套代码 |
| LLaMA | QLoRA | 7B/65B | 高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香 | 配套代码 |

LLM微调技术原理

对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。

大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介
大模型参数高效微调技术原理综述（二）-BitFit、Prefix Tuning、Prompt Tuning
大模型参数高效微调技术原理综述（三）-P-Tuning、P-Tuning v2
大模型参数高效微调技术原理综述（四）-Adapter Tuning及其变体
大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA
大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT
大模型参数高效微调技术原理综述（七）-最佳实践、总结

LLM微调实战

下面给大家分享大模型参数高效微调技术实战，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。

教程	代码	框架
大模型参数高效微调技术实战（一）-PEFT概述及环境搭建	N/A	HuggingFace PEFT
大模型参数高效微调技术实战（二）-Prompt Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（三）-P-Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（四）-Prefix Tuning / P-Tuning v2	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（五）-LoRA	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（六）-IA3	配套代码	HuggingFace PEFT
大模型微调实战（七）-基于LoRA微调多模态大模型	配套代码	HuggingFace PEFT
大模型微调实战（八）-使用INT8/FP4/NF4微调大模型	配套代码	PEFT、bitsandbytes

LLM分布式训练并行技术

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。

而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据/模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。

下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。

大模型分布式训练并行技术（一）-概述
大模型分布式训练并行技术（二）-数据并行
大模型分布式训练并行技术（三）-流水线并行
大模型分布式训练并行技术（四）-张量并行
大模型分布式训练并行技术（五）-序列并行
大模型分布式训练并行技术（六）-多维混合并行
大模型分布式训练并行技术（七）-自动并行
大模型分布式训练并行技术（八）-MOE并行
大模型分布式训练并行技术（九）-总结

分布式AI框架

PyTorch
PyTorch 单机多卡训练
PyTorch 多机多卡训练
Megatron-LM
Megatron-LM 单机多卡训练
Megatron-LM 多机多卡训练
基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理
DeepSpeed
DeepSpeed 单机多卡训练
DeepSpeed 多机多卡训练
Megatron-DeepSpeed
基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练
基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练

分布式训练网络通信

待更新…

LLM推理

LLM推理框架

大模型推理框架概述
大模型的好伙伴，浅析推理加速引擎FasterTransformer
模型推理服务化框架Triton保姆式教程（一）：快速入门
模型推理服务化框架Triton保姆式教程（二）：架构解析
模型推理服务化框架Triton保姆式教程（三）：开发实践
TensorRT-LLM保姆级教程（一）-快速入门
TensorRT-LLM保姆级教程（二）-开发实践
TensorRT-LLM保姆级教程（三）-基于Triton完成模型服务化
TensorRT-LLM保姆级教程（四）-新模型适配
TensorRT

LLM推理优化技术

LLM推理优化技术概述
PageAttention
FlashAttention

LLM压缩

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化

LLM量化

本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。

大模型量化概述
量化感知训练：
大模型量化感知训练技术原理：LLM-QAT
大模型量化感知微调技术原理：QLoRA
PEQA
训练后量化：
大模型量化技术原理：GPTQ、LLM.int8()
大模型量化技术原理：SmoothQuant
大模型量化技术原理：AWQ、AutoAWQ
大模型量化技术原理：SpQR
大模型量化技术原理：ZeroQuant系列
大模型量化技术原理：总结

LLM剪枝

结构化剪枝：

LLM-Pruner

非结构化剪枝：

SparseGPT
LoRAPrune
Wanda

LLM知识蒸馏

大模型知识蒸馏概述

Standard KD:

使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。

MINILLM
GKD

EA-based KD:

不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。

In-Context Learning：

In-Context Learning distillation

Chain-of-Thought：

MT-COT
Fine-tune-CoT
DISCO
SCOTT
SOCRATIC CoT

Instruction Following：

Lion

低秩分解

低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。

在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。