介绍第一位 AI 软件工程师 Devin

认识 Devin,世界上第一位完全自主的 AI 软件工程师。


Devin 是一位孜孜不倦、技术娴熟的队友,同样愿意与您一起构建或独立完成任务供您查看。


有了 Devin,工程师可以专注于更有趣的问题,工程团队可以为更雄心勃勃的目标而奋斗。

 Devin的能力

随着我们在长期推理和规划方面的进步,Devin 可以计划和执行需要数千个决策的复杂工程任务。Devin 可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误。


我们还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。


最后,我们赋予了 Devin 主动与用户协作的能力。Devin 实时报告其进度,接受反馈,并根据需要与您一起完成设计选择。


以下是 Devin 可以执行的操作示例:

Devin 可以学习如何使用不熟悉的技术。

在阅读了一篇博文后,Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。

Devin 可以端到端地构建和部署应用程序。

Devin制作了一个模拟生命游戏的互动网站!它以增量方式添加用户请求的功能,然后将应用部署到 Netlify。

Devin 可以自主查找和修复代码库中的错误。

Devin 帮助 Andrew 维护和调试他的开源竞争性编程书籍。

Devin 可以训练和微调自己的 AI 模型。

Devin 为大型语言模型设置了微调,只给出了指向 GitHub 上研究存储库的链接。

Devin 可以解决开源存储库中的错误和功能请求。只要有一个指向 GitHub 问题的链接,Devin 就会完成所需的所有设置和上下文收集。

Devin 可以为成熟的生产存储库做出贡献。

此示例是 SWE-bench 基准测试的一部分。Devin 解决了 sympy Python 代数系统中对数计算的错误。Devin 设置代码环境,重现错误,并自行编码和测试修复程序。

我们甚至尝试在 Upwork 上给 Devin 提供真正的工作,它也可以做到这些!

在这里,Devin 编写和调试代码以运行计算机视觉模型。Devin 对生成的数据进行采样,并在最后编制一份报告。

 德文的表现

我们在 SWE-bench 上评估了 Devin,这是一个具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。


Devin 正确地解决了 13.86%* 的端到端问题,远远超过了之前最先进的 1.96%。即使给定要编辑的确切文件,最好的以前模型也只能解决 4.80% 的问题。

*Devin 是在数据集的随机 25% 子集上进行的。Devin 是无辅助的,而所有其他模型都是辅助的(这意味着模型被确切地告知哪些文件需要编辑)。

我们计划很快发布更详细的技术报告,请继续关注更多细节。

 关于认知

我们是一个专注于推理的应用人工智能实验室。


我们正在培养 AI 团队成员,其能力远远超出当今现有的 AI 工具。通过解决推理问题,我们可以在广泛的学科中解锁新的可能性——代码只是一个开始。我们希望帮助世界各地的人们将他们的想法变为现实。


我们资金充足,包括由 Founders Fund 领投的 2100 万美元 A 轮融资。我们感谢行业领导者的支持,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 等。

关于 Devin 的 IT 背景,目前并没有直接的信息表明其具体的领域贡献或技术成就。然而,在提及的相关引用中可以推测一些间接线索[^1]。 从引用的内容来看,“Devin AI software engineer?” 提到的是知乎上的讨论主题,这可能意味着 Devin 是一位与人工智能软件工程相关的工程师或者研究者。尽管如此,这一信息并未提供明确的技术背景或项目经历支持。 进一步分析可知,如果将 Devin 放置在整个行业背景下考察,则可联想到当前热门的人工智能开发方向以及多模态模型的应用场景。例如 Gato 这样的通用代理展示了现代 AI 技术如何跨越不同任务边界实现统一框架下的多样化功能[^2]。虽然这些内容未直接涉及 Devin ,但它反映了当下 AI 工程师所需具备的核心能力——即跨学科知识融合和技术实践创新能力。 另外值得注意的是,在企业数字化转型过程中,像 Mr.K 黄哲铿这样的专家强调了技术和业务相结合的重要性[^4]。对于任何从事 IT 行业尤其是专注于人工智能领域的个人而言,理解并应用这种理念将是职业发展中不可或缺的一部分。 综上所述,基于现有资料无法确切得出 Devin 在 IT 方面的具体背景;但从整体行业发展角度来看,作为一位自称 “AI software engineer” 的人士,很可能正在探索诸如多模态学习、算法优化等领域前沿课题,并努力推动技术创新应用于实际问题解决之中。 ```python # 示例代码展示了一个简单的机器学习训练过程 import tensorflow as tf model = tf.keras.Sequential([ tf.keras.layers.Dense(64, activation='relu', input_shape=(32,)), tf.keras.layers.Dense(10) ]) optimizer = tf.keras.optimizers.Adam() loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True) @tf.function def train_step(inputs, labels): with tf.GradientTape() as tape: predictions = model(inputs, training=True) loss_value = loss_fn(labels, predictions) gradients = tape.gradient(loss_value, model.trainable_variables) optimizer.apply_gradients(zip(gradients, model.trainable_variables)) # 假设这是 Devin 可能会参与的一个基础实验部分 train_data = ... # 加载训练数据集 for epoch in range(num_epochs): for step, (inputs, labels) in enumerate(train_data): train_step(inputs, labels) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值