SWE-bench Verified 是 OpenAI 推出的一个经过人工验证的 SWE-bench 子集,旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。
它是 OpenAI 准备框架的一部分,该框架是一套安全地开发和部署其前沿模型的方法。作为其中的重要组成,OpenAI 开发了一系列指标来跟踪、评估和预测模型的自主行动能力。软件工程任务的复杂性使得评估 AI 模型在这方面的能力具有挑战性,而 SWE-bench Verified 就是为了解决这个问题而诞生的。
OpenAI 指出了原始 SWE-bench 的三个主要问题:单元测试过于严格,可能导致拒绝正确的解决方案;问题描述不明确,造成对问题及其解决方案的理解存在歧义;开发环境难以设置,可能导致单元测试无论解决方案如何都会失败。为了解决这些问题,OpenAI 与专业的软件开发人员合作,对 SWE-bench 测试集中的每个样本进行了人工筛选,以确保其具有适当范围的单元测试和明确的问题描述。推出了由 500 个样本组成的 SWE-bench Verified,并发布了所有 SWE-bench 测试样本的人工注释。同时,与 SWE-bench 作者合作开发了一个新的评估工具,该工具使用容器化的 Docker 环境,使在 SWE-bench 上进行评估更容易、更可靠。
在 SWE-bench Verified 上,GPT-4o 解决了 33.2%的样本,表现最好的开源框架 Agentless 的得分翻了一番,从 SWE-bench 上的 16%提高到 32%。SWE-bench Verified 的难度分布更倾向于简单样本,但性能提升在各个难度类别中都有体现,这表明新数据集有效地去除了不可行的样本。
SWE-bench Verified 的发布是 OpenAI 在评估 AI 模型软件工程能力方面迈出的重要一步,也期待社区在贡