OpenAI发布新模型CriticGPT：利用GPT优化GPT训练，RLHF实现超越人类能力！

最新推荐文章于 2024-08-13 15:40:02 发布

TechQuester

最新推荐文章于 2024-08-13 15:40:02 发布

阅读量1.9k

点赞数 46

文章标签： gpt 人工智能 python chatgpt 深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ElevenSakura/article/details/140041905

版权

目录

01 基于GPT-4，改进GPT-4

02 CriticGPT取得了哪些成果呢？

03 RLHF的上限不再是人类

近日，OpenAI突然发布了一个新模型！这个模型基于GPT-4训练，旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误，而人类只能找到不到25%。

此外，它还能为这些错误撰写“评论”，在60%的情况下，人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于，CriticGPT的挑错能力不仅限于代码。

例如，它可以在RLHF训练中挑出AI输出的错误，且已经被纳入OpenAI的内部训练流程。

更好的RLHF训练能产生更强的模型，而更强的模型又能通过更好地挑错来增强RLHF训练……

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出：在真实世界数据中挑错方面，AI还有进步空间，而人类智能已经达到极限。

论文地址：https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队，由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic，继续从事类似研究。

01 基于GPT-4，改进GPT-4

OpenAI官网文章间接承认了，GPT-4之后的改进遇到了一些瓶颈：

随着AI能力增强，它犯的错误变得不那么显眼，人类训练师难以发现不准确之处。

人类无法提供反馈，RLHF“人类反馈强化学习”也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4，并接受了RLHF训练，但特别之处在于训练数据中包含大量的错误输入。

具体来说，分为三步：

让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。

标注员扮演代码审查员的角色，写下他们对这些bug的评论。

用这些数据来训练CriticGPT，让它学会如何发现和指出代码中的问题。

在训练过程中，他们还加入了一些有趣的环节。

例如，不断让标注员验证自己插入的bug是否足够隐蔽，能够骗过当前版本的CriticGPT。这样一来，CriticGPT就被迫不断进化，学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练，只不过生成器的角色由人类来扮演……

最后，OpenAI还采用了一种“强制采样束搜索”（FSBS）技术，使CriticGPT在生成评论时既能保持全面，又能减少“幻觉”和“鸡蛋里挑骨头”的现象。

具体来说，FSBS会强制模型生成多个不同的评论片段，用奖励模型对这些片段进行评分，最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子，可以在评论的全面性和准确性之间找到最佳平衡点，既不会错过重要问题，又不会过度挑剔。

02 CriticGPT取得了哪些成果呢？

在发现人为插入的bug方面，人类审核员平均只能找到25%，而CriticGPT的成功率高达75%以上。

在评估自然出现的Bug时，有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。

CriticGPT的评论被认为比ChatGPT的更全面，更少出现“幻觉”和无关紧要的挑剔。

在评估非代码任务时，成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。

不过CriticGPT也不是十全十美，它也会有“幻觉”问题，指出一些实际上不存在的问题。

目前，人类和CriticGPT组队工作效果最好：既能发现大部分问题，又能避免AI的“幻觉”。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一，但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时，人类无法提供相应的反馈，AI也就无法改进。

CriticGPT的成功，意味着超级对齐团队设想中的可扩展监督，即用弱模型监督训练更强模型的愿景，终于有了实现的希望。

为什么选择从代码任务入手呢？

一方面，代码任务具有现实意义，开发出的模型可以直接应用。

另一方面，代码可以清晰明确地评估，比开放式对话更客观，更容易判断CriticGPT发现的问题是否真实和重要。

结果表明，虽然CriticGPT在代码上训练，但不仅能挑出代码中的Bug，还发现了1/4的ChatGPT生产数据中的问题。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

推荐阅读：

ChatGPT之母：AI自动化将取代人类，创意性工作或将消失

超越GPT-4o！新王Claude 3.5 Sonnet来啦！

GPT-4o首次引入！全新图像自动评估基准发布！

关注

46
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
OpenAI发布新模型CriticGPT：利用GPT优化GPT训练，RLHF实现超越人类能力！

近日，OpenAI突然发布了一个新模型！这个模型基于GPT-4训练，旨在帮助下一代GPT的训练。此外，它还能为这些错误撰写“评论”，在60%的情况下，人类训练师更喜欢有CriticGPT帮助下的批评。但这项研究的关键在于，例如，。更好的RLHF训练能产生更强的模型，而更强的模型又能通过更好地挑错来增强RLHF训练……这篇论文来自已解散的超级对齐团队，由前负责人Jan Leike带队完成。Leike本人已经跳槽到Anthropic，继续从事类似研究。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。