Abstract (translated)
近年来,大型语言模型(LLMs)的进步在代码生成方面大大提高了性能,尤其是在功能级别。例如,GPT-4在HumanEval上的通过率为88.4%。然而,这引发了质疑现有基准在全面评估功能级别代码生成能力方面的充分性。我们的研究分析了两个常见的基准,HumanEval和MBPP,并发现,由于质量、难度和粒度等方面的限制,这些基准可能无法充分评估LLMs的代码生成能力。为解决这个问题,我们引入了主要由人类编写的M Mostly Hard Python Problems(MHPP)数据集,包括140个独特的由人类编写的独特问题。通过关注自然语言和代码推理的结合,MHPP衡量了LLMs理解规范和限制、进行多步推理以及有效应用编程知识的能力。使用MHPP评估22个LLM后,许多在HumanEval上表现优秀的模型在MHPP上未能取得类似的成功。此外,MHPP揭示了各种LLM中 previously未被发现的问题,使我们相信,它可能为更好地理解LLMs的能力和限制铺平道路。数据集和代码可在此链接下载:https://www.aclweb.org/anthology/H2022-10203176/
这篇论文名为“MHPP: Exploring the Capabilities and Limitations of Language Models