LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

UnknownBody

于 2024-05-16 10:54:15 发布

阅读量154

点赞数

分类专栏： LLM Daily LLM Agent 文章标签：语言模型机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/138951443

版权

LLM Daily 同时被 2 个专栏收录

1271 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

85 篇文章

订阅专栏

本文是LLM系列文章，针对《LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS》的翻译。

大型语言模型中的长形式真实性

摘要
1 引言
2 LONGFACT：使用LLMS生成长形式真实性的多主题基准
3 SAFE：LLM代理人作为事实的自动代理人
4 LLM代理可能比人类更能说明事实
5 F1@K：利用人参考长度的召回扩展F1
6 更大的LLM更真实
7 相关工作
8 局限性
9 结论

摘要

大型语言模型（LLM）在响应开放式主题的事实查询提示时，通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试，我们首先使用GPT-4生成LongFact，这是一个由跨越38个主题的数千个问题组成的提示集。然后，我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器（SAFE）的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实，并使用多步骤推理过程评估每个事实的准确性，该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。此外，我们建议将F1分数扩展为长形式真实性的聚合度量。为此，我们平衡响应中支持的事实的百分比（精度）与提供的事实相对于表示用户首选响应长度（回忆）的超参数的百分比。
从经验上讲，我们证明LLM代理可以胜过众包人工注释器——在一组约16k个个体事实上，SAFE 72%的时间与众包人工标注器一致，在100个不一致案例的随机子集上，SAFE%76的时间获胜。同时，SAFE比人工注释器便宜20多倍。我们还在LongFact上对四个模型族（Gemini、GPT、Claude和PaLM-2）的13个语言模型进行了基

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。