本文是LLM系列文章,针对《LiveCodeBench: Holistic and Contamination Free Evaluation of
Large Language Models for Code》的翻译。
摘要
应用于代码相关应用程序的大型语言模型(LLM)已成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLM的开发,现有的评估基准(如HumanEval、MBPP)不再足以评估其能力。在这项工作中,我们提出了LiveCodeBench,这是一种对代码LLM的全面且无污染的评估,它从三个竞争平台(即LeetCode、AtCoder和CodeForces)的比赛中收集新问题。值得注意的是,我们的基准测试还关注更广泛的代码相关功能,如自修复、代码执行和测试输出预测,而不仅仅是代码生成。目前,LiveCodeBench在2023年5月至2024年5月期间发布了500多个编码问题。我们在LiveCodeBench上评估了18个基本LLM和34个指令调优LLM。我们介绍了关于污染、整体性能比较、现有基准中潜在的过度拟合以及单个模型比较的实证结果。我们将发布所有提示和模型完成,用于进一步的社区分析,以及用于添加新场景和模型的通用工具包。