[240818] OpenAI 推出 SWE-bench Verified | 苹果公司即将推出全新的 NFC 和 SE API

OpenAI 推出 SWE-bench Verified:更精准评估 AI 软件工程能力

OpenAI 发布了 SWE-bench Verified,这是一个经过人工验证的 SWE-bench 子集,能够更可靠地评估 AI 模型解决现实世界软件问题的能力。

1. 背景介绍

  • OpenAI 的 Preparedness Framework 致力于开发各种指标来跟踪、评估和预测模型自主行动的能力。
  • 软件工程任务的自动化是模型自主性风险类别中中等风险级别的关键组成部分。
  • SWE-bench 是一个流行的软件工程评估套件,用于评估大型语言模型 (LLM) 解决从 GitHub 提取的现实世界软件问题的能力。
  • OpenAI 的测试发现,SWE-bench 中的一些任务可能难以甚至不可能解决,导致 SWE-bench 系统性地低估了模型的自主软件工程能力。

2. SWE-bench 的问题

  • 单元测试过于具体,甚至与问题无关,导致正确方案被拒绝。
  • 问题描述不明确,导致解决方案模棱两可。
  • 开发环境设置困难,影响单元测试结果。
  • 示例:
    • 问题描述:scikit-learn__scikit-learn-14520copy 参数被忽略。

      # 问题描述:copy 参数被忽略
      Copy param ignored in TfidfVectorizer
      I was playi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值