SWE-bench Verified

SWE-bench Verified 是 OpenAI 推出的一个经过人工验证的 SWE-bench 子集,旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

它是 OpenAI 准备框架的一部分,该框架是一套安全地开发和部署其前沿模型的方法。作为其中的重要组成,OpenAI 开发了一系列指标来跟踪、评估和预测模型的自主行动能力。软件工程任务的复杂性使得评估 AI 模型在这方面的能力具有挑战性,而 SWE-bench Verified 就是为了解决这个问题而诞生的。

OpenAI 指出了原始 SWE-bench 的三个主要问题:单元测试过于严格,可能导致拒绝正确的解决方案;问题描述不明确,造成对问题及其解决方案的理解存在歧义;开发环境难以设置,可能导致单元测试无论解决方案如何都会失败。为了解决这些问题,OpenAI 与专业的软件开发人员合作,对 SWE-bench 测试集中的每个样本进行了人工筛选,以确保其具有适当范围的单元测试和明确的问题描述。推出了由 500 个样本组成的 SWE-bench Verified,并发布了所有 SWE-bench 测试样本的人工注释。同时,与 SWE-bench 作者合作开发了一个新的评估工具,该工具使用容器化的 Docker 环境,使在 SWE-bench 上进行评估更容易、更可靠。

在 SWE-bench Verified 上,GPT-4o 解决了 33.2%的样本,表现最好的开源框架 Agentless 的得分翻了一番,从 SWE-bench 上的 16%提高到 32%。SWE-bench Verified 的难度分布更倾向于简单样本,但性能提升在各个难度类别中都有体现,这表明新数据集有效地去除了不可行的样本。

SWE-bench Verified 的发布是 OpenAI 在评估 AI 模型软件工程能力方面迈出的重要一步,也期待社区在贡

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百态老人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值