介绍第一位 AI 软件工程师 Devin

最新推荐文章于 2025-02-14 10:23:29 发布

liferecords

最新推荐文章于 2025-02-14 10:23:29 发布

阅读量1.4k

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/liferecords/article/details/136684852

版权

认识 Devin，世界上第一位完全自主的 AI 软件工程师。
‍

Devin 是一位孜孜不倦、技术娴熟的队友，同样愿意与您一起构建或独立完成任务供您查看。

有了 Devin，工程师可以专注于更有趣的问题，工程团队可以为更雄心勃勃的目标而奋斗。

Devin的能力

随着我们在长期推理和规划方面的进步，Devin 可以计划和执行需要数千个决策的复杂工程任务。Devin 可以在每一步中回忆相关的上下文，随着时间的推移学习并纠正错误。

我们还为 Devin 配备了通用的开发人员工具，包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。

最后，我们赋予了 Devin 主动与用户协作的能力。Devin 实时报告其进度，接受反馈，并根据需要与您一起完成设计选择。
‍

以下是 Devin 可以执行的操作示例：

Devin 可以学习如何使用不熟悉的技术。

在阅读了一篇博文后，Devin 在 Modal 上运行 ControlNet，为 Sara 生成带有隐藏消息的图像。

Devin 可以端到端地构建和部署应用程序。

Devin制作了一个模拟生命游戏的互动网站！它以增量方式添加用户请求的功能，然后将应用部署到 Netlify。

Devin 可以自主查找和修复代码库中的错误。

Devin 帮助 Andrew 维护和调试他的开源竞争性编程书籍。

Devin 可以训练和微调自己的 AI 模型。
‍
Devin 为大型语言模型设置了微调，只给出了指向 GitHub 上研究存储库的链接。

Devin 可以解决开源存储库中的错误和功能请求。只要有一个指向 GitHub 问题的链接，Devin 就会完成所需的所有设置和上下文收集。

Devin 可以为成熟的生产存储库做出贡献。

此示例是 SWE-bench 基准测试的一部分。Devin 解决了 sympy Python 代数系统中对数计算的错误。Devin 设置代码环境，重现错误，并自行编码和测试修复程序。

我们甚至尝试在 Upwork 上给 Devin 提供真正的工作，它也可以做到这些！
‍
在这里，Devin 编写和调试代码以运行计算机视觉模型。Devin 对生成的数据进行采样，并在最后编制一份报告。

德文的表现

我们在 SWE-bench 上评估了 Devin，这是一个具有挑战性的基准测试，要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。

Devin 正确地解决了 13.86%* 的端到端问题，远远超过了之前最先进的 1.96%。即使给定要编辑的确切文件，最好的以前模型也只能解决 4.80% 的问题。

*Devin 是在数据集的随机 25% 子集上进行的。Devin 是无辅助的，而所有其他模型都是辅助的（这意味着模型被确切地告知哪些文件需要编辑）。

我们计划很快发布更详细的技术报告，请继续关注更多细节。

关于认知

我们是一个专注于推理的应用人工智能实验室。
‍

我们正在培养 AI 团队成员，其能力远远超出当今现有的 AI 工具。通过解决推理问题，我们可以在广泛的学科中解锁新的可能性——代码只是一个开始。我们希望帮助世界各地的人们将他们的想法变为现实。

我们资金充足，包括由 Founders Fund 领投的 2100 万美元 A 轮融资。我们感谢行业领导者的支持，包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 等。