LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

本文是LLM系列文章,针对《LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS》的翻译。

摘要

大型语言模型(LLM)在响应开放式主题的事实查询提示时,通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试,我们首先使用GPT-4生成LongFact,这是一个由跨越38个主题的数千个问题组成的提示集。然后,我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器(SAFE)的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。此外,我们建议将F1分数扩展为长形式真实性的聚合度量。为此,我们平衡响应中支持的事实的百分比(精度)与提供的事实相对于表示用户首选响应长度(回忆)的超参数的百分比。
从经验上讲,我们证明LLM代理可以胜过众包人工注释器——在一组约16k个个体事实上,SAFE 72%的时间与众包人工标注器一致,在100个不一致案例的随机子集上,SAFE%76的时间获胜。同时,SAFE比人工注释器便宜20多倍。我们还在LongFact上对四个模型族(Gemini、GPT、Claude和PaLM-2)的13个语言模型进行了基准测试,发现较大的语言模型通常可以实现更好的长形式真实性。LongFact、SAFE和所有实验代码都可以在https://github.com/google-deepmind/long-form-factuality上找到。

<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值