SWE-bench Verified-CSDN博客

本文链接：https://blog.csdn.net/weixin_41429382/article/details/144053858

SWE-bench Verified 是 OpenAI 推出的一个经过人工验证的 SWE-bench 子集，旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

它是 OpenAI 准备框架的一部分，该框架是一套安全地开发和部署其前沿模型的方法。作为其中的重要组成，OpenAI 开发了一系列指标来跟踪、评估和预测模型的自主行动能力。软件工程任务的复杂性使得评估 AI 模型在这方面的能力具有挑战性，而 SWE-bench Verified 就是为了解决这个问题而诞生的。

OpenAI 指出了原始 SWE-bench 的三个主要问题：单元测试过于严格，可能导致拒绝正确的解决方案；问题描述不明确，造成对问题及其解决方案的理解存在歧义；开发环境难以设置，可能导致单元测试无论解决方案如何都会失败。为了解决这些问题，OpenAI 与专业的软件开发人员合作，对 SWE-bench 测试集中的每个样本进行了人工筛选，以确保其具有适当范围的单元测试和明确的问题描述。推出了由 500 个样本组成的 SWE-bench Verified，并发布了所有 SWE-bench 测试样本的人工注释。同时，与 SWE-bench 作者合作开发了一个新的评估工具，该工具使用容器化的 Docker 环境，使在 SWE-bench 上进行评估更容易、更可靠。

在 SWE-bench Verified 上，GPT-4o 解决了 33.2%的样本，表现最好的开源框架 Agentless 的得分翻了一番，从 SWE-bench 上的 16%提高到 32%。SWE-bench Verified 的难度分布更倾向于简单样本，但性能提升在各个难度类别中都有体现，这表明新数据集有效地去除了不可行的样本。

SWE-bench Verified 的发布是 OpenAI 在评估 AI 模型软件工程能力方面迈出的重要一步，也期待社区在贡