论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?

iclr 2024 oral reviewer评分 5668

  • 现有的语言模型(LMs)的基准测试已经饱和,无法捕捉到最先进的语言模型能做什么和不能做什么的前沿。
    • ——>要具有挑战性的基准测试
  • 论文引入了SWE-bench
    • 在现实软件工程环境中评估语言模型的基准测试
      • ​​​​​​​模型的任务是解决提交到热门GitHub仓库的问题(通常是bug报告或功能请求)
      • 每个任务都需要生成描述对现有代码库应用的更改的补丁。
      • 然后,使用仓库的测试框架评估修订后的代码库
    • 修复一个bug可能涉及导航一个大型仓库,理解不同文件中的功能之间的相互作用,或者在复杂的代码中发现一个小错误
    • 这个是现有的编码基准测试不具备的
      • HumanEval主要涉及自包含问题,这些问题可以在几行代码内解决

  •  SWE-bench相较于现有的LM编程基准测试具有多个优势
    • 利用用户提交的问题和解决方案的现实设置
    • 从12个仓库中提取的独特代码问题的多样输入
    • 基于执行的评估的强大框架
    • 能够持续用新实例更新基准测试,几乎不需要人工干预

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值