本文是LLM系列文章,针对《Testing the Effect of Code Documentation on Large Language Model Code Understanding》的翻译。
摘要
近年来,大型语言模型(LLMs)在代码生成和理解方面表现出了令人印象深刻的能力。然而,很少有研究调查文档和其他代码属性如何影响LLM理解和生成代码或文档的能力。我们对代码或文档的底层属性如何影响LLM的能力进行了实证分析。我们发现,为LLM提供“不正确”的文档会极大地阻碍代码理解,而不完整或缺失的文档似乎不会显著影响LLM理解代码的能力。
1 引言
2 相关工作
3 LLM代码理解
4 实验设置
5 结果
6 结论
在本文中,我们介绍了代码文档对LLM代码理解的影响,并在我们的初步实验中表明,文档的相对流行对LLM的理解几乎没有显著影响,正如我们所定义的那样。这有点复杂,因为我们发现成功的单元测试数量没有显著差异,但这些单元测试的代码覆盖率确实有显著差异。即使将带注释的代码与没有注释的代码进行比较,并且所有变量名都更改为随机字符,我们也发现LLM生成成功单元测试的能力几乎没有显著差异。因此,尽管有注释的代码比没有注释的代码被单元测试覆盖的更多,但这并不能提高整体单元测试的成功率。这表明LLM更善于理解代码的不同执行路径,但这可能会使创建成功的单元测试变得更加困难。或者,我们确实表明,不正确的注释确实会显著影响LLM理解代码的能力。<