与 Genie 见面 — 未来的 AI 工程师

十年前,编码既困难又复杂,但很有趣。现在,由于最近的发展,它变得很有趣。
五个月前,当我第一次看到DevinAI时,我感到震惊,但我也知道它将成为继 ChatGPT、Claude 3.5 和 Gemini 等LLM之后的下一个大热门。

正如我所料,我们看到了Devika,这是 Devin 的免费版本。它们都具有令人印象深刻的功能,但准确性并不高——直到我看到 Genie 的图表,这真是太神奇了!让我们深入探索它吧!

Genie 的崛起:背景和愿景

参考

Genie 由 Cosine 创建,被誉为世界上最好的 AI 软件工程师。但依据什么?依据 SWE-Bench,一项旨在评估LLM编码能力的测试。

参考

如上所示,即使是 GPT 也只取得了 12.47% 的成绩,而 Cosine 的成绩却达到了 30.08%,几乎是 GPT 的 2.5 倍。这确实令人印象深刻。现在,让我们看看他们提出的具体用例。

Github-Repo

参考

众所周知,GitHub 是一个开发者分享代码的平台。在开源项目中,依赖这些库或工具的用户可以报告遇到的问题。

步骤 1- 选择触发器

在初始步骤中,您需要选择触发器,它作为自主软件工程师的起点。

在这个真实的例子中,他们选择了 Github 问题,并给出了它的链接。

现在 Genie 已经发现了 Github 问题。

参考

现在该确定问题并查找相关文件了。如您所见,它找到了文件并计划要做什么。

参考

第 2 步 — 执行

现在下一步是执行代码。

参考

第 3 步 - 测试

好的,现在是时候测试它编写的代码了。

参考

第 4 步 - 调试

下一步,如果发现错误,它会进行调试——但是如何调试呢?

参考

它将返回到步骤 1来规划场景,然后转到步骤 2来执行代码,最后转到步骤 3来运行测试。

参考

如今这个问题已经解决了。

参考

如您所见,它解决了涉及 2 个文件和 2 次提交的未知问题,并通过运行 17 个测试测试了所有内容 - 所有这些仅用了 84 秒。

最后的想法

如您所见,它的效果令人印象深刻。但是,我希望有更多有影响力的例子,如 Devin 提供的那些——例如使用此工具解决 Upwork 任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值