AutoCodeRover:自主程序改进
Abstract
过去几十年来,研究人员在软件开发过程自动化方面取得了重大进展。大型语言模型 (LLM) 的最新进展对开发过程产生了重大影响,开发人员可以使用基于 LLM 的编程助手来实现自动化编码。然而,软件工程除了编码之外还涉及程序改进的过程,特别是为了实现软件维护(例如错误修复)和软件演化(例如功能添加)。在本文中,作者提出了一种解决 GitHub 问题的自动化方法,以自主实现程序改进。在我们称为 AutoCodeRover 的方法中,LLM 与复杂的代码搜索功能相结合,最终导致程序修改或补丁。与人工智能研究人员和从业者最近的法学硕士代理方法相比,我们的前景更加面向软件工程。致力于程序表示(抽象语法树),而不是将软件项目视为单纯的文件集合。代码搜索利用类/方法形式的程序结构来增强 LLM 对问题根本原因的理解,并通过迭代搜索有效地检索上下文。只要有可用的测试套件,使用测试进行的基于频谱的故障定位可以进一步增强上下文。在由 300 个现实 GitHub 问题组成的 SWE-bench-lite 上进行的实验表明,解决 GitHub 问题的效率有所提高(SWE-bench-lite 上的效率为 22-23%)。在包含 2294 个 GitHub 问题的完整 SWE-bench 上,AutoCodeRover 解决了大约 16% 的问题,这高于最近报告的来自 Cognition Labs 的 AI 软件工程师 Devin 的效率,同时与 Devin 花费的时间相当。作者的工作流程能够实现自主软件工程,未来LLM自动生成的代码可以得到自主改进。
1. 超越自动程序编程
这一章节讨论了自动化软件工程任务的历史和背景。作者指出,尽管自动程序编程