Distilling Desired Comments for Enhanced Code Review with Large Language Models

最新推荐文章于 2025-12-15 14:50:45 发布

UnknownBody

最新推荐文章于 2025-12-15 14:50:45 发布

阅读量247

点赞数 6

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/145286616

LLM Daily 同时被 2 个专栏收录

1743 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for code

58 篇文章

订阅专栏

本文是LLM系列文章，针对《Distilling Desired Comments for Enhanced Code Review with Large Language Models》的翻译。

摘要

由于大型语言模型（LLMs）在代码理解方面的熟练程度，人们对使用LLMs进行代码审查的兴趣日益浓厚。大多数审查场景的主要目标是生成所需的审查意见（DRC），明确指出问题以触发代码修复。然而，由于幻觉等各种原因，现有的基于LLM的解决方案在生成DRC方面并不那么有效。为了提高他们的代码审查能力，他们需要使用一个定制的数据集进行微调，该数据集最好充满DRC。然而，这样的数据集尚不可用，而手动注释DRC太费力，不切实际。在本文中，我们提出了一种数据集蒸馏方法Desiview，该方法可以通过从代码审查数据集中识别DRC来自动构建蒸馏数据集。在CodeReviewer数据集上进行的实验显示，Desiview在精确度、召回率、准确率和F1方面分别达到了88.93%、80.37%、86.67%和84.44%，超过了最先进的方法。为了验证这种提取的数据集对增强LLM代码审查能力的影响，我们首先对最新的LLaMA系列（即LLaMA 3和LLaMA 3.1）进行了微调，以构建模型Desiview4FT。然后，我们通过将那些被确定为非DRC的审查意见反馈给LLM，从而产生模型Desiview4FA，通过KTO对齐来增强模型训练效果。验证结果表明，Desiview4FA略优于Desiview4FT，而这两个模型在生成DRC方面都比基本模型有了显著改善。人工评估证实，这两种模型都能更准确地识别问题，并倾向于生成比基本LLM更好地描述代码中包含的问题的审查意见。