总结：一文搞懂chatGPT原理

最新推荐文章于 2024-05-31 00:06:43 发布

技术小张zz

最新推荐文章于 2024-05-31 00:06:43 发布

阅读量1.1k

点赞数 1

文章标签： chatgpt 人工智能机器学习开发语言机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41838305/article/details/130399049

版权

目前关于chatGPT的资料过于零散，没有详尽所有知识点、系统概述的文章，因此，笔者作了这篇总结性文章。

训练过程总览
理清演化路径
预训练(pretrain)
- GPT-3概述
- GPT 3模型的理念
- GPT-3如何学习
- 数据集
指令微调 (Instruction Fine-Tuning，IFT)
有监督微调 (Supervised Fine-tuning, SFT)
人类反馈强化学习 (Reinforcement Learning From Human Feedback，RLHF)
其他方法
- 思维链 (Chain-of-thought，CoT)
与chatGPT类似的工作

训练过程总览

OpenAI 使用了 175B参数的大型语言模型（LM）和 6B参数的奖励模型 （RM）。除预训练之外，训练过程分为三步：

收集NLP各种任务的数据集，加上任务描述和提示组装成新的数据集，并使用这些数据微调预训练的大型语言模型。包括指令微调和有监督微调。
从上述数据集中采样，使用大型语言模型生成多个响应，手动对这些响应进行排名，并训练奖励模型（RM）以适应人类偏好。
基于第一阶段的有监督微调模型和第二阶段的奖励模型，使用强化学习算法进一步训练大型语言模型。

理清演化路径

GPT-3.5 参数量仍然为175B，总体进化树如下：

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
总结：一文搞懂chatGPT原理

GPT-3是一种自回归模型，仅使用解码器，训练目标也是预测下一个单词（没有判断下一句任务）。最大的GPT-3模型有175B参数，是BERT模型大470倍(0.375B)
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术小张zz 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。