OpenAI 推出 SWE-bench Verified:更精准评估 AI 软件工程能力
OpenAI 发布了 SWE-bench Verified,这是一个经过人工验证的 SWE-bench 子集,能够更可靠地评估 AI 模型解决现实世界软件问题的能力。
1. 背景介绍
- OpenAI 的 Preparedness Framework 致力于开发各种指标来跟踪、评估和预测模型自主行动的能力。
- 软件工程任务的自动化是模型自主性风险类别中中等风险级别的关键组成部分。
- SWE-bench 是一个流行的软件工程评估套件,用于评估大型语言模型 (LLM) 解决从 GitHub 提取的现实世界软件问题的能力。
- OpenAI 的测试发现,SWE-bench 中的一些任务可能难以甚至不可能解决,导致 SWE-bench 系统性地低估了模型的自主软件工程能力。
2. SWE-bench 的问题
- 单元测试过于具体,甚至与问题无关,导致正确方案被拒绝。
- 问题描述不明确,导致解决方案模棱两可。
- 开发环境设置困难,影响单元测试结果。
- 示例:
-
问题描述:
scikit-learn__scikit-learn-14520
中copy
参数被忽略。# 问题描述:copy 参数被忽略 Copy param ignored in TfidfVectorizer I was playi
-