AI软件工程师闪亮登场,程序员是否心生危机呢?

声明:本文来源虽经修改和润色,若有异议请联系,我撤下本文。首个AI软件工程师震撼硅谷!手握10块IOI金牌,他们铁了心砸掉程序员饭碗 (qq.com)

作为第一个完全自主的AI软件工程师,Devin一亮相就引起了整个科技圈的轰动。只需一句指令,它就可以端到端地处理整个开发项目,无需人工干预。

据SWE-bench基准测试显示,在无需人类帮助的情况下,Devin可以解决13.86%的问题,这是相当高的性能表现。相比之下,GPT-4只能处理1.74%的问题,并且仍然需要人类提示来指出需要处理哪些文件。可以说,Devin的表现远远超过了以前任何的AI大模型。

Devin可以从零开始构建网站、自主查找并修复Bug,甚至可以训练和微调自己的AI模型。此外,它也可以为一些成熟的代码库做出贡献。所有这些都不在话下。

 

即使是一些不熟悉的技术,给Devin一个博客文章也可以立即搞定。例如,使用ControlNet来生成带有隐藏文字的图像,Devin也可以轻松应对。对Devin来说,学习和应用新技术是再普通不过的事情。

据悉,Devin已经成功通过一家AI公司的面试,并在Upwork上完成了实际工作。这再次证明了它的高超能力和实用价值。 

而这背后的公司——Cognition虽然是一家初创公司,但却是小而精悍。在招聘信息中,它醒目地宣称拥有10个IOI金牌得主,这让同行们直呼:哦莫,太疯狂了!

目前,Devin尚未正式开展公测,但已经有一小部分用户获得了测试资格,开始进行试用测试。

 首个AI软件工程师亮相

Devin被称为世界上第一个完全自主的AI软件工程师。

它通过长时间的推理和规划,能够规划和执行需要数千个决策才能完成的复杂软件工程任务。在这一过程中,它可以回调所有相关的上下文信息,保证整体逻辑性,并方便随时校正错误。

Devin是一个端到端的AI,提供全方位的服务,配备了开发人员常用的工具,例如shell、代码编辑器和浏览器等,都在沙盒计算环境中进行操作。

在这个过程中,它的主要能力包括以下六个:
 

1. 端到端构建和部署程序

Devin不仅可以帮我们解决代码问题,还可以处理与代码相关的整个工作流。

例如,当我们需要设计一个网页游戏时,Devin不仅可以生成网页,还可以直接完成服务端的部署,然后直接发布上线,省去了中间的人工操作。

只需告诉Devin,我们想创建一个个人网站,其中包含 Devin 定制版的生命游戏。然后,Devin会先构建网站的基本架构,并询问是否有其他具体需求。

图片

在明确了要求之后,Devin给出了如下任务清单:

1.创建React应用,安装UI模块等依赖。

2.使用React和UI模块搭建前端环境。

3.部署服务器并确保其在私有IP下运行。

4.通过CDN向首页添加p5.js库。

5.在React中部署并验证游戏的功能和资源是否正确配置。

图片

随后,Devin就会开始按照自己设计的清单编写代码,并完成服务的部署。

图片

△Devin部署后端服务器并完成全部工作

最终,当所有工作完成后,我们就可以看到一个即点即玩的游戏链接呈现在我们面前。

图片

2、自主查找并修复bug

Devin不仅可以快速完成开发和部署,而且在debug方面的能力也是一流的。例如,开发者可以将GitHub链接发送给Devin,让它熟悉项目情况,并准备好数据进行测试。Devin能够很快地熟悉项目并针对性地进行测试和debug,从而提高开发效率并保证代码质量。

图片

随后,Devin按部就班地编写了测试程序并准备好了数据,然后运行了测试。结果,Devin在已经发布的完整项目中发现了一个甚至连开发者自己都没有发现的漏洞。

图片

一旦发现漏洞,Devin会回溯错误位置和相应数据,分析原因并提出解决方案。经过调试,该程序的漏洞成功得到了修复,通过了测试,实现了完美的效果。

图片

3、训练和微调自己的AI模型

除了处理一般的程序或项目之外,作为一名全能型AI助手,Devin还可以帮助人类训练和微调其他的AI模型。对于一些常见的模型(例如文章示例中的Llama),用户只需要在promot中提及模型的名称,Devin就会知道要训练哪个模型。在示例中,微调的具体方法(QLoRA)是以GitHub链接的形式输入给Devin的。

图片

接到指令后,Devin会像处理常规代码一样,边规划边执行。所需环境和依赖项,以及模型本身,都会自动下载和安装。

图片

一旦所有准备工作完成,微调工作就会顺利进行,而且整个过程中的状态可以实时监控。

图片

4、修复开源库

Devin不仅可以协助开发者完成自己的项目,还可以处理开源社区中的问题。例如,只需要将GitHub项目的问题链接发送给Devin,它就可以立即配置环境并自动收集上下文信息,然后开始解决问题。Devin在处理开源社区中的问题时同样表现出色。

图片

当然,Devin也可以处理开源项目的功能请求(feature request)。与修复问题的流程类似,它可以帮助您自行进行配置、收集上下文信息,然后开始编写代码。无论是解决现有的问题还是实现新的功能,Devin都可以在短时间内提供有力的支持。

5、成熟的生产库也能做贡献

还不仅如此,即使是已经成熟的生产库,Devin也可以提供可靠的帮助。事实上,Devin已经成功解决了sympy Python代数系统中的一个对数计算错误。通过以下流程,它成功地修复了这个问题:首先配置环境和重现错误,然后自主编码和修复,并进行测试。Devin如往常一样,快速而成功地完成了所有的任务。

图片

就是这个库

6、不熟的技术,现学现卖

最后,如果Devin遇到自己不会的技能,它可以迅速学习并应用这些技能。因此,即使您遇到了刚刚发现的技术文章,也可以将其链接直接发送给Devin。

Hi Devin!我在这个博客文章中(附网址)发现,可以生成带有隐藏文本的图像。文中提到了一个脚本,你能配置好它,然后为我真的生成一些图片吗?

图片

PS:Devin是通过ControlNet技术来实现这项任务的。在接到请求后,Devin首先询问了更为详细的需求,然后开始阅读博客文章。像平常一样,它规划出了行动方案并立即开始实施。

图片

有了详细的行动方案后,Devin可以在数分钟内迅速进行代码编写和调试。如果在这个过程中遇到了 bug,Devin同样有能力对其进行快速修复,因此完全不用惊慌。

图片

在完成工具的搭建后,Devin也没有需要人类自行配置使用,而是直接一气呵成,最终生成了我们想要的带有隐藏文字的图像:

图片

可以说Devin的表现相当令人惊艳。在具体的测试中,Devin表现同样出色。在评估Devin的表现时,团队没有使用常见的HumanEval,而是采用了更具挑战性的SWE-bench数据集。该数据集由GitHub中实际问题组成,而Devin在没有任何辅助的情况下,就取得了13.86%的最高解决率。与此同时,在同样不借助任何辅助的条件下,GPT-4的问题解决率为零。到目前为止,最高解决率为1.96%,即使加入了辅助,也仅为4.8%。

图片

公司人均一块IOI金牌

这项扭转游戏规则的新技术背后,却是一家名不见经传的初创公司。然而,这家“名不见经传”的公司,却拥有一个由10位员工组成的编程天才团队,每个人都荣获过IOI金牌,相当于人均一块。这家公司名为Cognition AI,总部位于纽约和旧金山,定位是一家专注于推理的应用AI实验室。在过去的两个月里,该公司才正式完成注册,之前一直在秘密地工作。Cognition AI团队共有10名成员,但这个小团队却拥有10枚IOI金牌。他们的创始成员曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等一些从事AI前沿工作的公司工作过。目前,Cognition AI由Scott Wu、Steven Hao、Walden Yan三人创立并领导。

图片

联合创始人兼CEO Scott Wu,根据我们目前搜到的资料,Scott Wu曾就读于哈佛大学,曾是Lunchclub的联合创始人兼CTO。

图片

曾连续三年揽获IOI金牌:

图片

联合创始人兼CTO Steven Hao,毕业于MIT计算机专业,之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。

图片

也曾是IOI金牌得主:

图片

联合创始人兼CPO Walden,曾在哈佛大学攻读计算机科学和经济学相关专业,拥有丰富的学术背景和实践经验。他还曾在MIT PRIMES密码学和机器学习方向进行计算机科学研究,并在沃顿商学院高中生投资大赛中入围北美地区决赛。

图片

2020年第32届IOI金牌得主:

图片

据X推文的转发顺藤摸瓜,另外一个创始人Neal Wu,同样有哈佛大学教育经历,曾在tryramp、GoogleBrain工作过。

图片

整个团队的长期目标在于解决推理问题,并在广泛的学科领域中解锁新的可能性。然而,“代码仅仅是开始”。

对于Devin系统目前的实现方式,Cognition AI尚未透露是如何实现这一壮举的,包括使用自己的专有模型或第三方模型等技术方案。

此外,Cognition AI已经获得硅谷投资大佬彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。彼得蒂尔以挖掘极具突破性的创新项目而著名,而且哈佛背景的创业者也和他建立了紧密的联系。

总之,Cognition AI的发展具有许多潜力和前途,无论是在技术层面还是在商业和投资层面,都令人们对其未来充满期望。

上一个他早期投资中类似背景,最知名的是扎克伯格和Facebook。

“自动化软件工程与自动驾驶类似”

Devin一亮相,让不少工程师大惊失色:软件工程师…要失业了???

图片

图片

图片

有些人评价:终于有AI让我们从繁重的编程任务中解脱出来。

图片

前特斯拉AI总监卡帕西发了如下说法。

自动化软件工程,目前看起来与自动化驾驶类似。

具体体现在发展进程上:人类首先手动编写代码,然后GitHub Copilot可以自动完成几行代码,接着ChatGPT可以编写代码块,现在出现了Devin系统,为自动化编写更多的代码奠定了基础。

Devin的出现让人可以深刻地思考自动化软件工程的未来发展。自动化软件工程将成为协调开发人员需要串联的许多工具与技术一起编写代码,这将包括终端、浏览器、代码编辑器等工具。同时,人类也需要负责监督这一过程,将逐渐转向更高级别的工作。

结合卡帕西的经历和对自动驾驶的理解,我们可以发现,自动驾驶技术的发展也是一个渐进式的推进过程。在一段时间内,自动驾驶和人类驾驶相互共存,经过不断的数据反馈和迭代,最终实现完全无人驾驶。

因此,自动化软件工程的发展也将类似于自动驾驶技术的渐进式推进。在此过程中,低代码和零代码都将起到重要的作用,最终实现完全不需要人类编写代码。

图片

Perplexity AI CEO如下评价

它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们通过结合 LLM 和树搜索算法可以实现什么

图片

德扑AI之父、前FAIR(Meta)研究科学家也发出如下感慨:

2024年是AI激动人心的一年。

图片

程序员们危机来了吗?切皆有可能(Doge)

参考文献:

1、首个AI软件工程师震撼硅谷!手握10块IOI金牌,他们铁了心砸掉程序员饭碗

————凹非寺量子号公众号

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值