LLM大模型如何微调？面试经验回答汇总（2024.7月最新）

所谓的灾难性遗忘：即学习了新的知识之后，几乎彻底遗忘掉之前习得的内容。这在微调ChatGLM-6B 模型时，有同学提出来的问题，表现为原始ChatGLM-6B模型在知识问答如“失眠怎么办”的回答上是正确的，但引入特定任务（如拼写纠错CSC）数据集微调后，再让模型预测“失眠怎么办”的结果就答非所问了。

我理解ChatGLM-6B模型是走完 “预训练-SFT-RLHF” 过程训练后的模型，其SFT阶段已经有上千指令微调任务训练过，现在我们只是新增了一类指令数据，相对大模型而已，微调数据量少和微调任务类型单一，不会对其原有的能力造成大的影响，所以我认为是不会导致灾难性遗忘问题，我自己微调模型也没出现此问题。应该是微调训练参数调整导致的，微调初始学习率不要设置太高，lr=2e-5或者更小，可以避免此问题，不要大于预训练时的学习率。

18. 微调模型需要多大显存？

19. 大模型LLM进行SFT操作的时候在学习什么？

(1) 预训练->在大量无监督数据上进行预训练，得到基础模型-->将预训练模型作为SFT和RLHF的起点。

(2) SFT-->在有监督的数据集上进行SFT训练，利用上下文信息等监督信号进一步优化模型-->将SFT训练后的模型作为RLHF的起点。

(3) RLHF-->利用人类反馈进行强化学习，优化模型以更好地适应人类意图和偏好-->将RLHF训练后的模型进行评估和验证，并进行必要的调整。

20. 预训练和SFT操作有什么不同

此SFT的逻辑和原来的预训练过程是一致的，但是通过构造一些人工的高质量问答语料，可以高效地教会大模型问答的技巧。

21. 样本量规模增大，训练出现OOM错

问题描述：模型训练的样本数量从10万，增大300万，训练任务直接报OOM了。

解决方案，对数据并行处理，具体实现参考海量数据高效训练，核心思想自定义数据集本次的主要目标是使向量化耗时随着处理进程的增加线性下降，训练时数据的内存占用只和数据分段大小有关，可以根据数据特点，灵活配置化。核心功能分为以下几点:

均分完整数据集到所有进程（总的GPU卡数）

每个epoch训练时整体数据分片shuffle一次，在每个进程同一时间只加载单个分段大小数据集

重新训练时可以直接加载向量化后的数据。

22. 大模型LLM进行SFT 如何对样本进行优化？

对于输入历史对话数据进行左截断，保留最新的对话记录。

去掉样本中明显的语气词，如嗯嗯，啊啊之类的。

去掉样本中不合适的内容，如AI直卖，就不应出现转人工的对话内容。

样本中扩充用户特征标签，如年龄，性别，地域，人群等

23. 模型参数迭代实验

验证历史对话轮次是否越长越好，通过训练两个模型，控制变量max_source_length｜ max_target_length，对训练好之后的模型从Loss、Bleu指标、离线人工评估等角度进行对比分析。问题：描述计算机主板的功能回答：计算机主板是计算机中的主要电路板。它是系统的支撑。输入：描述计算机主板的功能[BOS]计算机主板是计算机中的主要电路板。它是系统的支撑。[EOS] 标签：[......][BOS]计算机主板是计算机中的主要电路板。它是系统的支撑。[EOS]

结论：从人工评估少量样本以及loss下降来看，历史对话长度1024比512长度好，后续如果训练可能上线模型，可以扩大到1024长度。

24. 微调大模型的一些建议

1 模型结构:

模型结构+训练目标: Causal Decoder + LM。有很好的zero-shot和few-shot能力，涌现效应

layer normalization: 使用Pre RMS Norm

激活函数: 使用GeGLU或SwiGLU

embedding层后不添加layer normalization，否则会影响LLM的性能

位置编码: 使用ROPE或ALiBi。ROPE应用更广泛

去除偏置项:去除dense层和layer norm的偏置项，有助于提升稳定性

2 训练配置:

batch: 选用很大的batch size; 动态地增加batch size的策略，GPT3逐渐从32K增加到3.2M tokens。

学习率调度:先warmup再衰减。学习率先线性增长，再余弦衰减到最大值的10%。最大值一般在 5e-5到1e-4之间。

梯度裁剪:通常将梯度裁剪为1.0。

权重衰减: 采用AdamW优化器，权重衰减系数设置为0.1Adamw相当于Adam加了一个L2正则项

混合精度训练:采用bfloat16，而不是foat16来训练。

3 训练崩溃挽救:

选择一个好的断点，跳过训练崩溃的数据段，进行断点重训。选择一个好的断点的标准: 损失标度 lossscale>0;梯度的L2范数<一定值 && 波动小

25. 微调大模型时，如果 batch size 设置太小会出现什么问题？

当 batch size 较小时，更新方向（即对真实梯度的近似）会具有很高的方差，导致的梯度更新主要是噪声。经过一些更新后，方差会相互抵消，总体上推动模型朝着正确的方向前进，但个别更新可能不太有用，可以一次性应用（使用更大 batch size 进行更新）。

26. 微调大模型时，如果 batch size 设置太大会出现什么问题？

当 batch size 非常大时，我们从训练数据中抽样的任何两组数据都会非常相似（因为它们几乎完全匹配真实梯度）。因此，在这种情况下，增加 batch size 几乎不会改善性能，因为你无法改进真实的梯度预测。换句话说，你需要在每一步中处理更多的数据，但并不能减少整个训练过程中的步数，这表明总体训练时间几乎没有改善。但是更糟糕的是你增加了总体的 FLOPS。

27. 微调大模型时, batch size 如何设置问题？

各种结果表明似乎存在着一个关于数据并行程度的临界点，通过找到这个临界点，我们可以有效的平衡训练的效率和模型的最终效果。 OpenAI 发现最优步长：

注：B 为 batch size，Bnoise为噪声尺度

在采用最优 step size 时，从含有噪声的梯度中获得的损失的最优改进现在变为：

从这些公式中我们可以得出两个结论： 1. 无论我们如何准确地估计真实梯度，总存在一个最大步长 2. 批处理大小越大，我们优化模型的步长就越大（有一个上限）

28. 微调大模型时, 优化器如何？

除了Adam和AdamW，其他优化器如Sophia也值得研究，它使用梯度曲率而非方差进行归一化，可能提高训练效率和模型性能。

29. 哪些因素会影响内存使用？

内存使用受到模型大小、批量大小、LoRA参数数量以及数据集特性的影响。例如，使用较短的训练序列可以节省内存。

30. 进行领域大模型预训练应用哪些数据集比较好？

通过分析发现现有的开源大模型进行预训练的过程中会加入书籍、论文等数据。主要是因为这些数据的数据质量较高，领域相关性比较强，知识覆盖率（密度）较大，可以让模型更适应考试。给我们自己进行大模型预训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重要的数据。

31. 用于大模型微调的数据集如何构建？

进行大模型微调时，数据是比较重要的，数据的高度决定模型效果的高度，因此数据的质量重要性大于数据的数量的重要性，因此对于构建微调数据时的几点建议如下所示：

1. 选取的训练数据要干净、并具有代表性。

2. 构建的prompt尽量多样化，提高模型的鲁棒性。

3. 进行多任务同时进行训练的时候，要尽量使各个任务的数据量平衡。

32. 大模型训练loss突刺原因和解决办法

参考：A Theory on Adam Instability in Large-Scale Machine Learning

32.1 大模型训练loss突刺是什么？

loss spike指的是预训练过程中，尤其容易在大模型（100B以上）预训练过程中出现的loss突然暴涨的情况

如图所示模型训练过程中红框中突然上涨的loss尖峰 loss spike的现象会导致一系列的问题发生，譬如模型需要很长时间才能再次回到spike之前的状态（论文中称为pre-explosion），或者更严重的就是loss 再也无法drop back down，即模型再也无法收敛 PaLM和GLM130b之前的解决办法是找到loss spike之前最近的checkpoint，更换之后的训练样本来避免loss spike的出现。

32.2 为什么大模型训练会出现loss突刺？

大模型训练使用的Adam优化器会导致 loss突刺。

32.3 大模型训练loss突刺如何解决？

本文最后提到了防止loss spike出现的一些方法：

1. 如之前提到的PaLM和GLM130B提到的出现loss spike后更换batch样本的方法（常规方法，但是成本比较高）

2. 减小learning rate，这是个治标不治本的办法，对更新参数的非稳态没有做改进

3. 减小 e 大小。或者直接把 e 设为0，

其实这块我有个自己的想法，e 和 a 是否也可以做衰减，随着训练过程逐渐减小，来避免loss spike的现象另外假设我们能一次性加载所有样本进行训练（实际上不可能做到），是否还会出现loss spike的现象最后目前流行的fp8，fp16混合训练，如果upscale设置的过小，导致梯度在进入优化器之前就下溢，是不是会增加浅层梯度长时间不更新的可能性，进而增加loss spike的出现的频率。（这么看来似乎提升 upscale大小以及优化 e 大小是进一步提升模型效果的一个思路）