十年前,编码既困难又复杂,但很有趣。现在,由于最近的发展,它变得很有趣。
五个月前,当我第一次看到DevinAI时,我感到震惊,但我也知道它将成为继 ChatGPT、Claude 3.5 和 Gemini 等LLM之后的下一个大热门。
正如我所料,我们看到了Devika,这是 Devin 的免费版本。它们都具有令人印象深刻的功能,但准确性并不高——直到我看到 Genie 的图表,这真是太神奇了!让我们深入探索它吧!
Genie 的崛起:背景和愿景
Genie 由 Cosine 创建,被誉为世界上最好的 AI 软件工程师。但依据什么?依据 SWE-Bench,一项旨在评估LLM编码能力的测试。
如上所示,即使是 GPT 也只取得了 12.47% 的成绩,而 Cosine 的成绩却达到了 30.08%,几乎是 GPT 的 2.5 倍。这确实令人印象深刻。现在,让我们看看他们提出的具体用例。
Github-Repo
众所周知,GitHub 是一个开发者分享代码的平台。在开源项目中,依赖这些库或工具的用户可以报告遇到的问题。
步骤 1- 选择触发器
在初始步骤中,您需要选择触发器,它作为自主软件工程师的起点。
在这个真实的例子中,他们选择了 Github 问题,并给出了它的链接。
现在 Genie 已经发现了 Github 问题。
现在该确定问题并查找相关文件了。如您所见,它找到了文件并计划要做什么。
第 2 步 — 执行
现在下一步是执行代码。
第 3 步 - 测试
好的,现在是时候测试它编写的代码了。
第 4 步 - 调试
下一步,如果发现错误,它会进行调试——但是如何调试呢?
它将返回到步骤 1来规划场景,然后转到步骤 2来执行代码,最后转到步骤 3来运行测试。
如今这个问题已经解决了。
如您所见,它解决了涉及 2 个文件和 2 次提交的未知问题,并通过运行 17 个测试测试了所有内容 - 所有这些仅用了 84 秒。
最后的想法
如您所见,它的效果令人印象深刻。但是,我希望有更多有影响力的例子,如 Devin 提供的那些——例如使用此工具解决 Upwork 任务。