预训练,增量预训练,instruction tuning,RLHF,这些步骤的目的都是什么?

预训练和增量预训练

这个阶段只是简单地把所有语料都扔到LLM里训练而已,让有顺序的单词在next token prediction时的概率更高。而增量预训练,肯定是有些词过于垂类,导致base LLM不会给它太高概率,因此你得告诉他有这些文本是这些词连在一起的,这样LLM就学到了,也就是所谓的“眼熟”。
此时要不要训练embedding和lm_head是一个问题。我觉得除非是像“en模型加训成zh模型”一样的体量,否则小数据集别动embedding和lm_head。它俩是模型的输入和输出,是和这一整套模型配合的东西,是基于大量语料训练来的,因此也反映了最适合该LLM状态的embedding。数据量少,可能不足以达到embedding重新和LLM适配的情况,欠拟合的结果很难拿得准。

instruction tuning

预训练模型等于一个不停打字的猴子,它不听你的话,不懂人类一问一答的规矩。你得教他规矩。
不仅是问答的规矩,还有,他什么该答,什么不该答,什么时候回答完毕,你都得教他。
所以,这一步更多的是对预训练时学到的“吐下一个token的规律”进行约束,因此仍然需要涉及所有方面的大量QA数据。比较好的是,由于QA数据的Answer仍然属于next token prediction的范围里,所以LLM学到的更多是“Q是这个,那么我输出到这里就该停止”这么一个规律,因此不需要严格到所有领域,只需要涉足够广,LLM就能把规律迁移到未见过的query上。

RLHF

这一步是人类喜恶的对齐,是关于道德、违法、语言习惯的对齐。实际上,不是说只在这一步这么对齐了,RL作为有别于next token prediction任务的训练方法,它有对未来的窥探,也就是用价值函数预测未来可能说的话是否符合人类喜恶。
我们在instruction tuning阶段,其实就可以做一些对齐工作,无非是对于非法query,将输出引导到“作为一个大模型,我不能XXX”。但是next token prediction这个任务太短视了,它只能在query明显是非法的时候,通过将前几个token的输出概率引到"作为一个大模型",以阻止LLM输出非法内容,而对于过长的answer或五花八门的有欺骗性的query,instuction tuning无法保证一定不会吐出非法内容,这本就不在训练要求里。
因此,使用RL很有必要。

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值