Aligning LLMs for FL-free Program Repair

图学习小组

已于 2024-07-01 23:49:34 修改

阅读量792

点赞数 15

文章标签：人工智能深度学习语言模型程序自动修复软件错误定位

于 2024-07-01 00:14:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41200212/article/details/140048322

版权

基本信息

这是24年4月发表在arxiv上的一篇文章

博客创建者

武松

作者

Junjielong Xu, Ying Fu, Shin Hwei Tan, Pinjia He
From：The Chinese University of Hong Kong, Shenzhen (CUHK-Shenzhen)

标签

大语言模型、程序自动修复、软件错误定位

1. 摘要

大型语言模型( large language models，LLMs )在自动程序修复( automatic program repair，APR )方面取得了不错的效果。然而，Decoder-only的LLMs (如 GPT-4 )的next token prediction训练目标与当前填充式方法（infilling-style）的掩码连续词预测（masked span prediction）目标不一致，这阻碍了LLMs充分利用预训练知识进行程序修复。此外，当使用相关artifacts(例如,测试用例)作为输入时，虽然一些LLMs能够端到端的定位和修复缺陷，但现有的方法将其视为单独的任务，需要先进行错误定位再用LLMs在定位位置生成补丁。这种限制阻碍了LLM的灵活性。
在本文中，本文研究了一种新的方法来使LLM适应APR。本文的核心见解是，LLM的APR能力可以通过简单地将输出与它们的训练目标对齐，并允许它们在不首先执行错误定位的情况下对整个程序进行优化（refinement）来大大提高性能。基于这一认识，本文设计了D4C，用于直接使用LLM进行APR。D4C可以正确修复Defects4J中的180个缺陷，每个补丁只需采样10次。该方法优于SOTA APR方法10%的完美错误定位，并减少了90%的补丁采样数量。文章主要贡献在于：

认为基于任务进行目标对齐对于充分挖掘LLM的预训练能力至关重要，于是将程序修复问题重定义为程序增强问题；
验证了直接优化整个代码比先定位后修复的方法效果更好；
提出D4C程序修复框架，将LLM直接用于APR，且效果比现有流程更好。

2. 方法

2.1 方法架构图

方法架构图

传统流程

与传统流程对比

预训练目标

最低0.47元/天解锁文章

图学习小组

博客等级

码龄7年

93
原创

835
点赞

1130
收藏

619
粉丝

关注

私信

热门文章

最新评论

BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...
图学习小组: BRAFAR 采用了一系列经过精心设计的重构规则，这些规则允许在不改变程序语义的情况下进行结构调整，详见图5。除此之外，在进行控制流对齐时，BRAFAR 力求对程序结构进行最小化的修改。这种方法避免了大规模的结构变动，从而降低了引入新错误的风险。BRAFAR 还通过结合粗粒度到细粒度的故障定位方法，准确识别需要修复的基本块。这种方法不仅提高了修复的针对性，还减少了不必要的修复，从而进一步降低了引入新语义错误的可能性。
BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...
ConstellationSea: BRAFAR 的双向重构算法在对齐控制流结构时，如何确保不引入新的语义错误？
BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...
图学习小组: 主要用于规范推断、故障定位以及修复验证
BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...
图学习小组: 通过最长合法控制流匹配（ELLM算法）计算错误程序与所有正确解法之间的CFS相似性，优先选择控制流结构最接近的参考程序。对于CFS结构相似的多个正确程序，通过测试用例的动态执行结果进一步筛选。选择在相同输入下与错误程序输出行为最接近的正确解法。
BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...
图学习小组: 测试用例的质量直接影响BRAFAR故障定位的精度。高质量的测试套件（高覆盖、正确预期）能提升规范推断的可靠性，确保定位到真实错误；反之则可能导致漏检或误判，影响修复效果。但考虑到筛选错误代码的测试用例和用于故障定位的测试用例相同，这种情况应该不太明显

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。