预训练，增量预训练，instruction tuning，RLHF，这些步骤的目的都是什么？-CSDN博客

本文链接：https://blog.csdn.net/qq_39006282/article/details/140816015

预训练和增量预训练

这个阶段只是简单地把所有语料都扔到LLM里训练而已，让有顺序的单词在next token prediction时的概率更高。而增量预训练，肯定是有些词过于垂类，导致base LLM不会给它太高概率，因此你得告诉他有这些文本是这些词连在一起的，这样LLM就学到了，也就是所谓的“眼熟”。
此时要不要训练embedding和lm_head是一个问题。我觉得除非是像“en模型加训成zh模型”一样的体量，否则小数据集别动embedding和lm_head。它俩是模型的输入和输出，是和这一整套模型配合的东西，是基于大量语料训练来的，因此也反映了最适合该LLM状态的embedding。数据量少，可能不足以达到embedding重新和LLM适配的情况，欠拟合的结果很难拿得准。

instruction tuning

预训练模型等于一个不停打字的猴子，它不听你的话，不懂人类一问一答的规矩。你得教他规矩。
不仅是问答的规矩，还有，他什么该答，什么不该答，什么时候回答完毕，你都得教他。
所以，这一步更多的是对预训练时学到的“吐下一个token的规律”进行约束，因此仍然需要涉及所有方面的大量QA数据。比较好的是，由于QA数据的Answer仍然属于next token prediction的范围里，所以LLM学到的更多是“Q是这个，那么我输出到这里就该停止”这么一个规律，因此不需要严格到所有领域，只需要涉足够广，LLM就能把规律迁移到未见过的query上。

RLHF

这一步是人类喜恶的对齐，是关于道德、违法、语言习惯的对齐。实际上，不是说只在这一步这么对齐了，RL作为有别于next token prediction任务的训练方法，它有对未来的窥探，也就是用价值函数预测未来可能说的话是否符合人类喜恶。
我们在instruction tuning阶段，其实就可以做一些对齐工作，无非是对于非法query，将输出引导到“作为一个大模型，我不能XXX”。但是next token prediction这个任务太短视了，它只能在query明显是非法的时候，通过将前几个token的输出概率引到"作为一个大模型"，以阻止LLM输出非法内容，而对于过长的answer或五花八门的有欺骗性的query，instuction tuning无法保证一定不会吐出非法内容，这本就不在训练要求里。
因此，使用RL很有必要。