0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!...

15c64a4a81159f74740270f1c280b50a.gif

(本文阅读时间:6 分钟)

谁能想到,训练GPT-5竟不用手写代码。MIT微软最新研究发现,GPT-4在代码修复中的有效性。

我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。

这种自我修复背后的机制,究竟是怎样运作的?

对代码为什么是错误的,模型在多大程度上能提供准确反馈?

近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

d8d74d06039fbf9983c34f86b9b38007.png

论文地址:https://arxiv.org/pdf/2306.09896.pdf

英伟达科学家Jim Fan强烈推荐了这项研究。

在他看来,即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果,推理出问题所在,给出修复措施,反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。

很有可能,OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码。

d7d756429589d90a3761608e7d346178.png

- GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在,其他模型无法与之竞争。

- 反馈模型和代码生成模型不必相同。事实上,反馈模型是瓶颈。

- 基于GPT-4的反馈,GPT-3.5能够编写更好的代码。

- 基于专业人员的反馈,GPT-4本身能够编写更好的代码。

揭秘用于代码生成GPT修复

我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。

然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。

好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。

研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。

如图显示的是,基于自我修复方法的经典工作流程。

首先,给定一个规范,从代码生成模型中采样一个程序,然后在规范中提供的一组单元测试上执行该程序。

cc9dab15958a350436d13232a8a025c4.png

如果程序在任何单元测试中失败,那么错误的消息和程序会被提供给一个反馈生成模型,该模型再输出代码失败原因的简短解释。

最后,反馈被传递给一个修复模型,该模型生成程序的一个固定版本。

表面上看,这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误,在修复阶段容易地合并来自符号系统(编译器、静态分析工具和执行引擎等)的反馈。

并且模仿人类软件工程师编写代码的试错方式。

b21414b4008de0ce84efc3a12f0d563b.gif

然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。

而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。

目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。

研究人员提出了一个新的评估策略,称为d8335e6561448106eda0ad94cdb6f790.png,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。

因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。

从实验中,研究者发现:

1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。

2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。

4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。

自我修复四阶段


自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。

阶段一:代码生成

给定规范ad2ebd5d00ef480981c3e32dbe687ca4.png,一个程序模型74345105661602c84e52e2bef61615fc.png,首先生成694ee9f519854994579ec8e05f4edd4b.png样本d7aef4ed51b6bdd99a5fe2af670ebf6b.png

用一个公式来表示:

e9c8cef79c5617cfda35240712a3e555.png

阶段二:代码执行

然后在测试平台上执行3e3bfeb78c08797010fd0e26ee6677af.png代码示例,并假设可以以可执行形式的访问完整测试集。

如果任何样本通过了所有的测试,就会停止,因为此时已经找到了令人满意的程序。

否则,收集执行环境返回的错误信息0dc0e4cb5b4aadd68a62d0e11468a658.png

这些错误消息要么包含编译/运行时错误信息,要么包含程序输出与预期不同的示例输入。

阶段三:反馈生成

在此,研究人员使用反馈模型来生成更详细的错误解释。

在这个阶段,为每个错误的程序生成a20ca6c4ddac98abe6488a190905bc27.png反馈字符串,b19a4dd1cdf41b7cc2a3925699ee88c4.png,如下所示:

be377fa0ca5ec61091c261c0426b29b4.png

阶段四:代码修复

在最后一步中,对于每个初始程序a51973587d3f026652165380910c26db.png和反馈567a2aa5a95441c03fd7cf7d347d551c.pngcd74b53d2b1545ef23ca1ce8de6ada5c.png候选修复程序从6b501abbec0bf28cb116efb9e17f2c73.png中采样:

350eb985f9eb4c5874bf21034c7b415a.png

研究人员称这个过程产生的交错文本和程序树修复树T

——植根于规范40764a24e128986ded44d5012b871af8.png,然后分支到初始程序7b413b5b2b66a12739242e387ae64bd6.png,每个程序分支到反馈7bd7ee5ec2d08d895beea23f27946a4f.png,然后修复d27bcb553a457dab6f6b25662aa32eff.png

具体如图所示:

fc7a60372bb492bb95a29a8e15372bbd.png

由于自我修复需要几个非一致成本的相关模型调用,在这种设置中,d4636b93f2ecfe6a4034d9eabbaa14ef.png(在81578aba1076d0668428040107c52312.png样本中获得正确程序的可能性)不是比较和评估自我修复的各种超参数选择的合适度量。

相反,研究人员将通过率作为从模型中采样总token数量的函数来衡量,将其称之为e9e3d07857cc70126307b70310b5a44c.png的度量。

实验过程


研究人员又进一步针对3个问题进行了测试:

1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?

2. 更强的反馈模型会提高模型的修复性能吗?

3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能?

首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。

这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。

研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。

252760b8613389f9884ba2183b1788f1.png

研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。

下图为提示词的实例之一。

2859231de6ee652464208e7e31ed0549.png

自修复需要强大的模型和多样化的初始样本

研究人员让单个模型分别进行代码的修复生成和反馈生成。

在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。

8d7a0228834842eb6ba5a36016d37997.png

从图中可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。

而在GPT-4(下图)中,有几个值的自修复通过率明显优于基线。

20fabe47ad1abbd44f928f288f9b9ced.png

下图是80618702e6e4843c17c54634c383a5c8.png和基线的无修复方法。

GPT-4反馈改进了GPT3.5的修复结果

研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。

44ff57721df6f3221968548bea39b8d2.png

这个实验的结果如上图(亮蓝色)所示。

在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。

这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。

人工反馈显著提高了GPT-4修复的成功率

在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。

研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。

每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。

每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。

然后,参与者被要求用他们自己的话解释这个程序做错了什么。

实验结果如下图所示:

00dfb86dbc833128f6cbb40819991705.png

研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。

不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。

83f586a21cd610e1a2c0ae47be58bb3c.jpeg

参考资料:

https://twitter.com/DrJimFan/status/1675916565823516673

https://arxiv.org/pdf/2306.09896.pdf

3240e4fdd136230e39141fd5b2771905.gif

欢迎关注微软 ATP 官方账号

微软 ATP 一手资讯抢先了解

71ee21c7516e1cd8785dc556e5b1b256.jpeg

1c2dcb3f11bc0df68b8e91b9367c463e.jpeg

ef00f91e6cbeda8de6888726b18baa63.jpeg

7dcad7af4455ebb46c78adcc59e8a925.jpeg

1ed783833d5e338c137ac8e087bdefa3.gif

点击“阅读原文” | 了解更多 AI 赋能案例

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值