大模型整体流程：0)无监督预训练（庞大的通用语料）、1)二次无监督预训练（注入垂直领域知识）、2)有监督微调（问答对/指令对等）、3)奖励模型（排序后的数据集）、4)与人类对齐的强化训练PPO

u013250861

已于 2023-07-10 14:15:44 修改

阅读量1.8k

点赞数

分类专栏： LLM 文章标签：大模型

于 2023-06-10 18:55:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/131145214

版权

LLM 专栏收录该内容

126 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

模型的知识获取始于预训练，通过无监督学习建立通用语料理解。接着，二次预训练引入垂直领域知识，然后有监督微调使模型能处理问答对和指令对。进一步，奖励模型利用排序数据集优化，最后通过与人类对齐的强化训练PPO进行精细调整，强调在指令微调中数据质量与丰富度优于数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型的知识来源于预训练阶段，指令微调目的是和人类指令进行对齐。在指令微调阶段，数据的质量与丰富度，远比数量更重要。这是最近一段时间，开源社区以及各个论文强调的一个结论。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。