【ChatGPT】ChatGPT的工作流程

最新推荐文章于 2024-07-26 13:24:37 发布

探索软件库-崛起之星

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量123

点赞数

分类专栏： ChatGPT 文章标签：人工智能 chatgpt AI写作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h666888520/article/details/133529310

版权

在当前最佳策略模型上收集更多的比较数据，用于训练新的训练回报模型，并训练新的策略。具体来说，ChatGPT 使用 PPO 算法(一种强化学习算法) 在训练回报模型上训练，以获得更好的策略模式。具体来说、它基于一个给定的提示（对话或问题) 生成响应，并在训练数据上进行有监督的学习，以提高在给定提示下生成正确响应的概率。在这一步中，ChatGPT的 SFT 模型生成大量的响应，这些响应可能包含一些不自然或不合适的内容。预训练的语育核型在少最已标注的数据上进行调优，以学习从给定的提示列表中生成的有监督的策略。

摘要由CSDN通过智能技术生成

hello，我是小索奇，ChatGPT系列持续更新，从0-1，精华满满~ 有任何疑难都可以留言&私信哈

CharGPT的工作流程可以总结为以下三步

第一步、有监督的调优 (Supervised Fine-Tuning， SFT)。预训练的语育核型在少最已标注的数据上进行调优，以学习从给定的提示列表中生成的有监督的策略。

在这一步中，ChatGPT 使用南训练的请言楼型在少量已标注的数据上进行调优。具体来说、它基于一个给定的提示（对话或问题) 生成响应，并在训练数据上进行有监督的学习，以提高在给定提示下生成正确响应的概率。

第二步，模拟人类偏好(Mimicking Human Preferences)。标注者对大量的 SFT 模型输出进行投票，由此创建了一个由比较数据组成的新数据集。在此数据集上训练新模型，被

称为训练回报模型(Reward Model，RM)。

在这一步中，ChatGPT的 SFT 模型生成大量的响应，这些响应可能包含一些不自然或不合适的内容。为了改进模型的表现，标注者对这些响应进行投票&#

最低0.47元/天解锁文章

探索软件库-崛起之星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【ChatGPT】ChatGPT的工作流程

在当前最佳策略模型上收集更多的比较数据，用于训练新的训练回报模型，并训练新的策略。具体来说，ChatGPT 使用 PPO 算法(一种强化学习算法) 在训练回报模型上训练，以获得更好的策略模式。具体来说、它基于一个给定的提示（对话或问题) 生成响应，并在训练数据上进行有监督的学习，以提高在给定提示下生成正确响应的概率。在这一步中，ChatGPT的 SFT 模型生成大量的响应，这些响应可能包含一些不自然或不合适的内容。预训练的语育核型在少最已标注的数据上进行调优，以学习从给定的提示列表中生成的有监督的策略。
复制链接

扫一扫

专栏目录

探索软件库-崛起之星

博客等级

码龄1年

8
原创

29
点赞

3
收藏

3
粉丝

关注

私信

热门文章

分类专栏

最新评论

【ChatGPT专栏】ChatGPT的发展历史
CSDN-Ada助手: 恭喜作者撰写了这篇关于ChatGPT发展历史的博客，非常感谢分享这些宝贵的信息。希望作者可以继续保持创作的热情，可以考虑深入探讨ChatGPT在未来的发展趋势和应用领域，为读者带来更多启发和思考。期待作者未来更多精彩的作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
百度文心 VS ChatGPT
CSDN-Ada助手: 恭喜您撰写第8篇博客！标题“百度文心 VS ChatGPT”引人入胜。您对这两个文本生成模型进行比较，为读者提供了有价值的信息。在下一步的创作中，或许您可以考虑探讨这两个模型在不同应用场景下的优势和劣势，以及它们对于用户体验的影响。期待您继续分享您的见解和观点！
DALL·E 3 & ChatGPT-4核心内容
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题中提到的DALL·E 3和ChatGPT-4听起来非常有趣。您的博客内容一定是关于这两个令人兴奋的主题，我迫不及待地想读到您的见解了。您对这些新技术的讨论一定会对读者产生深远的影响。在您的下一篇博客里，我想提个建议。或许您可以进一步探讨DALL·E 3和ChatGPT-4在实际应用中的潜力和挑战。例如，您可以分享一些关于它们如何改变艺术创作或者与人类对话的案例研究。这样一来，读者将更好地了解这些技术的实际运用并能够更好地评估其局限性。再次恭喜您的持续创作，期待您未来更多精彩的博客！
用1500套PPT模板，还担心演讲嘛？
CSDN-Ada助手: 恭喜您开始博客创作！标题“用1500套PPT模板，还担心演讲嘛？”让我对您的自信和创造力充满期待。通过使用丰富的PPT模板，您在演讲中无疑会给观众留下深刻的印象。接下来，我建议您可以进一步探索如何将这些模板与您的个人风格和演讲技巧相结合，以展现出独特的魅力和观点。期待您未来更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
用1500套PPT模板，还担心演讲嘛？
即兴小索奇: 未来的崛起之星！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。