FABLES——基于书籍摘要数据集,由 100k 词组的长文本组成

介绍

论文地址:https://arxiv.org/pdf/2404.01261
项目地址:https://github.com/mungg/FABLES

近年来,长语境大语言模型(LLM)引起了人们的极大兴趣,因为从技术上讲,它们能够概括长度超过 10 万个词素的长篇句子。

另一方面,尽管对于此类摘要而言,**忠实性(对原文的忠实回应)主张(摘要中的主张部分)**之间的联系非常重要,但最近在这一领域的研究仅关注与输入无关的方面,如一致性。.

**由于输入文本的长度和复杂性,聘请人工标注者来阅读和理解这些文本非常昂贵和耗时,**这一直是 LLM 研究的主要瓶颈,从而使问题变得更加复杂。

为了解决这些问题,本文介绍了一个注释数据集 FABLES(Faithfulness Annotations for Book-Length Summarization),该数据集由 26 篇 LLM 生成的书籍摘要和 3158 个 CLAIMs 组成本文****通过构建多个 LLM 模型并与之进行对比实验,展示了 LLM 图书摘要任务的新可能性

FABLES (Faithfulness Annotations for Book-Length Summarisation)

FABLES(Faithfulness Annotations for Book-Length Summarization)是本文新构建的一个数据集,它由人类的注释组成。注释组成。

前提是,建立由摘要和注释组成的大型数据集的一个主要瓶颈是,无论从成本还是时间上来说,都不可能让注释者仅仅为了给 LLM 生成的摘要注释而阅读 10 万个或更多的词素。另外还有以下情况

本文采用一种非常简单的方法,即只使用数据集中注释者阅读过的书籍,成功地解决了这一问题。

这减少了注释者理解数据集所需的时间,使他们能够主动将 100k 或更多词素的长句纳入数据集中。

除此之外,本文还分三个步骤构建了数据集,如下图所示。

(a) 总结

首先,在总结文本时,我们准备了 2023-2024 年出版的 26 本图书的电子版,具体如下。

如上所述,所有书籍都已由注释者阅读过,这表明书籍的平均长度为**121k 字节,**处理的文本比现有数据集长得多。

为了总结这些著作,本文还采用了一种现有的方法,即分层合并策略(Chang 等人,2023 年),以GPT-3.5-Turbo、GPT-4-Turbo、Mixtral 和 Claude-3-Opus作为基础模型**。**模型。

(b) 索赔提取

下一步,将所得摘要细分为多个 CLAIM,以便进行详细注释。

例如,Claude-3-Opus 生成的摘要和 GPT-4 提取的 CLAIM 如下

© 人类评估

最后一步是由注释员(14 位英语为母语者)进行注释。

注释者被分配对所有 LLM 生成的摘要进行注释,这些摘要以随机顺序出现,通过采用这一步骤,成功构建了一个在现有研究中无与伦比的大型数据集,该数据集由 26 本图书的 130 篇摘要和 3158 条注释组成通过这一步骤,我们成功构建了由 26 本图书的 130 个摘要和 3158 个注释组成的大型数据集,这是现有研究无法比拟的。

值得注意的是,构建这个数据集花费了**5.2 千美元****,耗时约 11 个小时,**预算很低,时间很短,这在构建大型数据集方面是一个重大突破。

分析 FABLES 中的摘要

除本文外,还对 FABLES 中的 3158 项注释进行了统计和定性分析。

下表显示了从 LLM 生成的摘要中提取的**、被注释者评为 "可信"、"不可信"、"部分支持"和****"无法验证 "****的索赔百分比。**下表

从表中可以看出,Claude-3-Opus 得出的摘要最忠实(忠实度 = 90%),其次是 GPT-4 和 GPT-4-Turbo,但得分明显较低

这些结果表明,在图书摘要任务中,Claude-3-Opus 与其他模型的性能差异很大。

此外,定性分析的结果如下图所示。

分析结果表明,大多数被标注为 "不忠 "的说法要么与具体事件有关(31.5%),要么与某种性格或关系状况有关(38.6%)

总结

结果如何?在这篇文章中,我们构建了 FABLES(Faithfulness Annotations for Book-Length Summarisation)–一个对 26 本图书的 LLM 生成摘要中的 3158 条主张进行注释的数据集,并使用多个 LLM 模型进行了对比实验。论文介绍了多个LLM 模型的对比实验,展示了 LLM 书籍摘要任务的新可能性。

在本文的注释任务中,我们巧妙地使用了在注释任务之前阅读过每本书的注释者,从而构建了一个前所未有的大型长文本注释数据集,这可能会成为未来数据集构建的标准。

此外,本文所做的分析为我们深入了解 LLM 图书摘要任务的准确性为何会下降这一问题提供了重要启示,我们期待在本文的基础上出现更准确的 LLM 模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值