华人开源最强「AI 程序员」炸场,让 GPT-4 自己修 Bug!

d2a2716fd36da24a58e2f94f4069f94e.gif

作者 | 王启隆

出品 | CSDN(ID:CSDNnews)

自从“AI 程序员”Devin 问世之后,近期的一大趋势就是程序员们争先恐后地要让自己失业,试图抢先造出比自己更强大的程序员。

普林斯顿大学为软件工程界迎来了一位新星——SWE-agent,论文将在 4 月 10 日正式发布,目前项目已在 GitHub 上开源。

cb92e55ac9e2e36af2debf4276fe8d10.png

GitHub:https://github.com/princeton-nlp/SWE-agent

和其他的“AI 程序员”相比,SWE-agent 的特点就是将 GPT-4 这样的大型语言模型(LLMs)转化为软件工程代理,使其能够修复真实 GitHub 仓库中的错误和问题。SWE-agent 在软件工程基准测试中的准确度与 Devin 相当,在解决 GitHub 仓库问题上的性能甚至超过了 Devin:SWE-agent 平均只需 93 秒就能修完 Bug。

完整的 SWE-bench 基准测试结果显示,SWE-agent 修复了 12.29% 的问题,Debin 则是 13.84%——但 SWE-agent 有一大优势:开源。这一成绩也表明,开源模型有能力追赶甚至超越闭源模型的性能。SWE Agent 的高精度显示了其处理复杂软件工程任务的能力。

b811acef389c668acb28fe7d957e7675.png

SWE-agent 的一个核心特性是其开源代理计算机接口,该接口支持代码的编辑和执行。这一专门设计的接口旨在简化代理(由 GPT-4 驱动)与代码的交互,提高任务执行效率。通过提供诸如导航仓库、搜索文件、编辑行和将输入转换为代码等特定命令,代理计算机接口确保了代理与代码库之间的无缝交互。

代理计算机接口的设计对 SWE-agent 的性能至关重要。研究发现,将 GPT-4 连接到一个普通的 bash 终端并不能获得最佳效果。因此,专门设计了一个对语言模型友好的代理计算机接口,以提高代理的理解能力和性能。这种新设计促进了代理与代码库之间的有效沟通,确保了解决软件工程问题的准确性和效率。

b6fc695701f4add3aad5664770caf139.jpeg

SWE-agent 通过一个专门的终端与代码进行交互和执行任务。这个终端允许代理打开、滚动和编辑文件,确保精确更改,避免错误。它还使代理能够编写和执行测试,从而优化代码质量和效率。这个终端对 SWE-agent 的性能至关重要,增强了其有效处理软件工程任务的能力。

SWE-agent 的一作、华人 John Yang 在 X 上用一张图解释了这点:

f2426eca43bd602d7701ef6a6778b065.jpeg

最终实现的性能,比前段时间爆火的 RAG 检索技术要强很多:

e1f82d8c5ab93b167b933b8327101fc0.png

SWE-agent 开发过程中还有一个有趣发现是,限制 AI 系统访问的信息量可以提升其性能。通过仅允许系统一次查看 100 行代码,而不是整个文件,代理的规划和执行变得更加高效。这种限制有助于简化代理的思维过程,使其能够专注于处理更小部分的代码。这种优化策略已被证明对 SWE-agent 的整体性能有显著提升。

英伟达研究科学家 Jim Fan 也在 X 上盛赞 SWE:“通过精心调整 GPT-4 命令行工具的设计,足以在 SWE-bench 性能测试中取得 12.3% 的结果。既没有神奇的技术革新,也不需要模型的重大突破。

待到 GPT-5 问世,其在执行指令、工具操作及处理长篇幅上下文的能力上必将实现显著飞跃。届时,当前热议的所谓“提示工程 2.0”技术或许不会像现在这般关键。在此特别点赞 John Yang 的工作成果,他剥去了过度炒作的外衣,让我们看到了工程的实质是回归基础并注重实用性的改进措施。”

5a0d5e0beefa6579a9aa05c04693de8c.png

整体看下来,这一发布简单明了,没有一点炒作成分。在 4 月 10 日即将发布的论文中,普林斯顿大学团队还将深入探讨代理的技术架构、算法和性能优化策略,并详细介绍成本优化策略:SWE-agent 旨在将每个任务的成本控制在 4 美元以内,论文中会明确解决任务的平均成本。

722e53e9bfc5b9d564effc2e2d6c2324.gif

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

6147f256fba49750963c28a4e9b36b26.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值