逐帧分析，Devin如何成为AI软件开发者

Sebastian612

已于 2024-03-15 08:59:32 修改

阅读量2.5k

点赞数 51

分类专栏： AI 文章标签：人工智能

于 2024-03-14 18:50:25 首次发布

本文链接：https://blog.csdn.net/a879691172a/article/details/136718851

版权

AI 专栏收录该内容

1 篇文章

订阅专栏

Devin官方Bloghttps://www.cognition-labs.com/blog

先说结论

最近一个十人团队的初创公司公布的人工智能模型Devin火了一把，因为其宣称其是首个人工智能软件工程师。铺天盖地的公众号消息无一不打着“程序员干掉了自己的饭碗”的口号在为其卖力宣传着。实际效果如何，以下是我根据上面官方博客的介绍和几个演示视频得来的一些看法。

1、如果你有明确的目标，可以让Devin做一些尝试。

在演示视频中，大部分的要求都需要人类做出明确的指示，比如去哪里获取资料，做一个什么样的软件，有些类似需求沟通的过程。这要求人类需要了解如何与Devin进行有效沟通。

2、Devin未必能对存量项目进行梳理和重构

Devin的执行过程还是类似通过对任务进行分解，然后带着目的一步步的去执行。这适合于没有历史包袱的开创性任务，比如演示中的做一个小游戏、生成一张hidden text的图像等。但存量项目中牵扯太多隐含逻辑和大量代码，Devin未必可以胜任。

3、Devin没有自我驱动的能力

Devin的每一步思考都需要人工参与，比如需要给他指出哪里不够好，哪里有bug，这样他才会去定位、去分析。即使是演示视频3中对开源项目编写测试用例并进行调试和bug修复，一开始也需要人为告知其具体是哪一段代码可能有问题，或者给他提供issues信息、readme信息。

总体而言，Devin最大的突破是long-term reasoning and planning，其他的部分比如为其配备的workspace，随时上报进度并进行交流这些仍然是GPT或者是类AutoGPT的内容。如果希望其真正具有一个Software Engineer的素质，还有很多努力需要做。正如Cognition博客最后说的，建立Devin只是第一步，最艰难的挑战还在后面。

官方案例

截止2024-03-14，官网上的演示视频有如下几个。

在阅读了一篇博客文章后，Devin在Modal上运行ControlNet，为Sara制作隐藏信息的图像。YouTube
Devin制作了一个模拟生命游戏的互动网站！它会增量地添加用户要求的功能，然后将应用程序部署到netflix上。YouTube
Devin可以自主地发现和修复代码库中的错误。Devin帮助开发者维护和调试开源项目。YouTube
Devin可以训练和微调自己的AI模型。‍Devin为一个大型语言模型设置了微调，只给GitHub上一个模型库的链接，他可以自己拉取模型，阅读README，根据文档描述构建环境并执行微调。在微调报错后，他也能判断出是环境问题还是代码问题，并快速修复。YouTube
Devin可以解决代码库中的bug和功能要求。只要提供一个github issue的链接，Devin就会完成所需的所有设置和上下文收集。YouTube
Devin可以为成熟的生产代码库做出贡献。‍Devin解决了sympy Python代数系统中对数计算的错误。要知道这个项目代码量有68万行。YouTube
甚至可以让Devin在UpWork上完成一个真正的工作，比如搭建一个图像识别的人工智能模型。YouTube

下面对其中比较有代表性的两个案例进行逐帧分析。

发现和修复代码库中的错误

案例三中使用的代码库为github上开源的c++项目cp-book，代码行数大约7265，但在案例六中，Devin也能处理更大代码规模的项目，比如68万行代码的sympy。

sympy的统计结果（另一案例中的项目） — sympy的统计结果（案例六的项目）

首先，用户明确告知Devin项目路径、可能有bug的结构体名称、要求添加测试用例

可以从步骤列表中看出，Devin的规划能力不错，每一个步骤都是可执行且相关的。更重要的是，Devin的规划和执行是嵌套进行的，这一点从步骤中已经包含了mod_constraint所在的modnum.hpp文件位置就可以看出来。就不知道Devin是用的什么技术来实现检索和快速定位的了，RAG？Long-Term？Who knows?