GPT-4加Agent轻松追平Devin！普林斯顿造，开源首日斩获1.6k星

QbitAl

于 2024-04-03 13:16:54 发布

阅读量143

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247723863&idx=4&sn=79644751724d6bda95f4dab6f41a7875&chksm=e964ad73f33f2e9b423acb4a7b22830bc3915e0e5eef5bbfb6c91ef2b4ad280f3a4098434dc1&scene=126&sessionid=0

版权

白交发自凹非寺
量子位 | 公众号 QbitAI

用GPT-4打造的AI程序员，结果轻松追平Devin！

普林斯顿打造的开源SWE-agent，直接开箱即用——修复GitHub存储库中真实bug。

在25%的SWE-bench测试集上，它实现了与Devin相似的准确度—— 解决了12.29%的问题。

GitHub上线首日即斩获1.6K星。不少网友感叹，只需对GPT-4命令行工具进行简单设计，就可以让GPT-4部分能力大幅提升。

这恰好也印证了前几天吴恩达在演讲中的观点：

我认为AI Agent将在今年推动人工智能巨大进步，甚至可能超过下一代基础模型。

因为在吴恩达的研究中，GPT-3.5的Agent比GPT-4的表现还要好。

如今开源版Devin现世，已经有人开始RIP Devin了。

这就来看看这个开源版Devin长什么样。

开源版Devin来了

简单来说，SWE-agent是将语言模型（比如GPT-4）转变为软件工程agent，来Debug GitHub存储库中的一些问题。

他们设计了以 LM 为中心的命令和反馈格式来实现这些结果，使语言模型更容易浏览存储库、查看、编辑和执行代码文件。

用他们的说法，这叫做代理计算机接口（ACI），并构建SWE-agent存储库，以便轻松迭代ACI设计。

在SWE-agent上，团队主要设计了这些功能。

创建文件查看和编辑器，可以打开、滚动和编辑文件。

结果发现每轮只显示100行时效果最佳。

通过自动语法检查编辑特定行。

如果代码语法不正确，就不让编辑命令通过。当命令输出为空时会返回一条信息：”您的命令运行成功，但未产生任何输出”。

编写和执行测试。

目前使用SWE-agent主要有两个步骤。

首先，推理。SWE-agent接收一个输入的GitHub问题，并返回一个试图修复该问题的拉取请求。

第二步是评估拉取请求，以验证它是否确实修复了问题。*（目前仅适用于SWE-bench 基准中的问题）。

英伟达科学家Jim Fan为其工作点赞：Great Work！揭开了炒作背后的简单本质。

只需对GPT-4命令行工具进行更好的手动设计，就能在SWEBenche上获得12.3的成绩。没有什么神奇之处，没有什么模型突破，也没有什么理由要极力炒作。

当GPT-5到来时，这些 “提示工程 2.0 “都将不再重要。

这不免让人想到前段时间Devin横空出世，如今也很少见人讨论它了。

不过也有人问为什么不用Claude 3来做Agent，主创团队表示：尝试了，但结果不太好。

在SWE-bench Lite（测试集的 10% 子集）上，它的成绩比GPT-4少了近 6%。而且它也慢得多。（GPT-4的响应时间是93秒）

除此之外，他还表示团队在logo设计上费了很大心思——

花了几个小时用DALL-3来设计。（Doge）

普林斯顿造

这是来自普林斯顿NLP小组打造的软件工程Agent。

据了解，John Yang和Carlos E. Jimenez是共同一作。

除此之外还有姚顺雨，目前是普林斯顿在读博士生，2015年毕业清华姚班。

他们的共同导师是Karthik Narasimhan，目前是普林斯顿NLP联合主任，跟陈丹琦是同事。

团队表示，他们将在4月10号发布论文。

虽然但是，最后还有一个灵魂拷问：

呃但GPT-4不是开源的……

好了，你觉得这个开源的AI程序员怎么样呢？

参考链接：
[1]https://swe-agent.com/
[2]https://twitter.com/DrJimFan/status/1775173542470111475

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。