ERBENCH: AN ENTITY-RELATIONSHIP BASED AUTOMATICALLY VERIFIABLE HALLUCINATION BENCHMARK FOR LLMs

ERBench是一个基于实体关系的自动可验证基准,用于评估大型语言模型(LLM)。它将关系数据库转换为基准,通过功能依赖关系自动验证问题,并利用外键约束构造复杂问题。实验表明,虽然更好的LLM如GPT-4能处理更多问题,但仍存在错误。ERBench提供了一个全面的评估工具,代码已公开。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《ERBENCH: AN ENTITY-RELATIONSHIP BASED AUTOMATICALLY VERIFIABLE HALLUCINATION BENCHMARK FOR LARGE LANGUAGE MODELS》的翻译。

ERBENCH:一种基于实体关系的大型语言模型可自动验证的幻觉基准

摘要

大型语言模型(LLM)在各种应用程序中取得了前所未有的性能,但其评估仍然是一个关键问题。现有的幻觉基准要么是静态的,要么缺乏可调整的复杂性来进行彻底的分析。我们认为,利用现有的关系数据库是一种很有前途的构建基准的方法,因为它们通过函数依赖关系进行了准确的知识描述。我们建议ERBench自动将任何关系数据库转换为基于实体关系(ER)模型的基准。我们的关键思想是使用数据库模式、记录和功能依赖关系来构建问题,以便可以自动验证这些问题。此外,我们使用外键约束来连接关系并构造多跳问题,这些问题可以是任意复杂的,并用于调试LLM的中间答案。最后,ERBench支持连续评估、多模态问题和各种提示工程技术。在我们的实验中,我们使用多个领域的数据库构建了LLM基准,并对当代LLM进行了广泛的比较。我们观察到,像GPT-4这样更好的LLM可以处理更广泛的问题类型,但绝非完美。此外,正确的答案并不一定意味着正确的理由,这是一个重要的评估,ERBench在各种问题类型上比其他基准做得更好。代码在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值