本文是LLM系列文章,针对《ERBENCH: AN ENTITY-RELATIONSHIP BASED AUTOMATICALLY VERIFIABLE HALLUCINATION BENCHMARK FOR LARGE LANGUAGE MODELS》的翻译。
摘要
大型语言模型(LLM)在各种应用程序中取得了前所未有的性能,但其评估仍然是一个关键问题。现有的幻觉基准要么是静态的,要么缺乏可调整的复杂性来进行彻底的分析。我们认为,利用现有的关系数据库是一种很有前途的构建基准的方法,因为它们通过函数依赖关系进行了准确的知识描述。我们建议ERBench自动将任何关系数据库转换为基于实体关系(ER)模型的基准。我们的关键思想是使用数据库模式、记录和功能依赖关系来构建问题,以便可以自动验证这些问题。此外,我们使用外键约束来连接关系并构造多跳问题,这些问题可以是任意复杂的,并用于调试LLM的中间答案。最后,ERBench支持连续评估、多模态问题和各种提示工程技术。在我们的实验中,我们使用多个领域的数据库构建了LLM基准,并对当代LLM进行了广泛的比较。我们观察到,像GPT-4这样更好的LLM可以处理更广泛的问题类型,但绝非完美。此外,正确的答案并不一定意味着正确的理由,这是一个重要的评估,ERBench在各种问题类型上比其他基准做得更好。代码在