OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录

01 基于GPT-4,改进GPT-4

02 CriticGPT取得了哪些成果呢?

03 RLHF的上限不再是人类


近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误,而人类只能找到不到25%。

此外,它还能为这些错误撰写“评论”,在60%的情况下,人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于,CriticGPT的挑错能力不仅限于代码。

例如,它可以在RLHF训练中挑出AI输出的错误,且已经被纳入OpenAI的内部训练流程

更好的RLHF训练能产生更强的模型,而更强的模型又能通过更好地挑错来增强RLHF训练……

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出:在真实世界数据中挑错方面,AI还有进步空间,而人类智能已经达到极限。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队,由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic,继续从事类似研究。

01 基于GPT-4,改进GPT-4


OpenAI官网文章间接承认了,GPT-4之后的改进遇到了一些瓶颈:

随着AI能力增强,它犯的错误变得不那么显眼,人类训练师难以发现不准确之处。

人类无法提供反馈,RLHF“人类反馈强化学习”也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4,并接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。
     
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
     
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

在训练过程中,他们还加入了一些有趣的环节。

例如,不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练,只不过生成器的角色由人类来扮演……

最后,OpenAI还采用了一种“强制采样束搜索”(FSBS)技术,使CriticGPT在生成评论时既能保持全面,又能减少“幻觉”和“鸡蛋里挑骨头”的现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

02 CriticGPT取得了哪些成果呢?

  • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。
     
  • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
     
  • CriticGPT的评论被认为比ChatGPT的更全面,更少出现“幻觉”和无关紧要的挑剔。
     
  • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。

不过CriticGPT也不是十全十美,它也会有“幻觉”问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的“幻觉”。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一,但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时,人类无法提供相应的反馈,AI也就无法改进。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,即用弱模型监督训练更强模型的愿景,终于有了实现的希望。

为什么选择从代码任务入手呢?

一方面,代码任务具有现实意义,开发出的模型可以直接应用。

另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易判断CriticGPT发现的问题是否真实和重要。

结果表明,虽然CriticGPT在代码上训练,但不仅能挑出代码中的Bug,还发现了1/4的ChatGPT生产数据中的问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4o首次引入!全新图像自动评估基准发布!

  • 46
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值