论文略读：SWE-bench: Can Language Models Resolve Real-world Github Issues?

最新推荐文章于 2025-04-27 18:10:27 发布

UQI-LIUWJ

最新推荐文章于 2025-04-27 18:10:27 发布

阅读量2.1k

点赞数 6

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/137818790

版权

iclr 2024 oral reviewer评分 5668

现有的语言模型（LMs）的基准测试已经饱和，无法捕捉到最先进的语言模型能做什么和不能做什么的前沿。
- ——>要具有挑战性的基准测试
论文引入了SWE-bench
- 在现实软件工程环境中评估语言模型的基准测试
  - 模型的任务是解决提交到热门GitHub仓库的问题（通常是bug报告或功能请求）
  - 每个任务都需要生成描述对现有代码库应用的更改的补丁。
  - 然后，使用仓库的测试框架评估修订后的代码库
- 修复一个bug可能涉及导航一个大型仓库，理解不同文件中的功能之间的相互作用，或者在复杂的代码中发现一个小错误
- 这个是现有的编码基准测试不具备的
  - HumanEval主要涉及自包含问题，这些问题可以在几行代码内解决

SWE-bench相较于现有的LM编程基准测试具有多个优势
- 利用用户提交的问题和解决方案的现实设置
- 从12个仓库中提取的独特代码问题的多样输入
- 基于执行的评估的强大框架
- 能够持续用新实例更新基准测试，几乎不需要人工干预

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。