本文是LLM系列文章,针对《LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS》的翻译。
大型语言模型中的长形式真实性
摘要
大型语言模型(LLM)在响应开放式主题的事实查询提示时,通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试,我们首先使用GPT-4生成LongFact,这是一个由跨越38个主题的数千个问题组成的提示集。然后,我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器(SAFE)的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。此外,我们建议将F1分数扩展为长形式真实性的聚合度量。为此,我们平衡响应中支持的事实的百分比(精度)与提供的事实相对于表示用户首选响应长度(回忆)的超参数的百分比。
从经验上讲,我们证明LLM代理可以胜过众包人工注释器——在一组约16k个个体事实上,SAFE 72%的时间与众包人工标注器一致,在100个不一致案例的随机子集上,SAFE%76的时间获胜。同时,SAFE比人工注释器便宜20多倍。我们还在LongFact上对四个模型族(Gemini、GPT、Claude和PaLM-2)的13个语言模型进行了基