大模型整体流程:0)无监督预训练(庞大的通用语料)、1)二次无监督预训练(注入垂直领域知识)、2)有监督微调(问答对/指令对等)、3)奖励模型(排序后的数据集)、4)与人类对齐的强化训练PPO

模型的知识获取始于预训练,通过无监督学习建立通用语料理解。接着,二次预训练引入垂直领域知识,然后有监督微调使模型能处理问答对和指令对。进一步,奖励模型利用排序数据集优化,最后通过与人类对齐的强化训练PPO进行精细调整,强调在指令微调中数据质量与丰富度优于数量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

模型的知识来源于预训练阶段,指令微调目的是和人类指令进行对齐。在指令微调阶段,数据的质量与丰富度,远比数量更重要这是最近一段时间,开源社区以及各个论文强调的一个结论。 

 




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值