大型语言模型在文本摘要领域适应性评估研究

近年来,大型语言模型(Large Language Models, LLMs)在包括抽象文本摘要在内的广泛自然语言处理任务中取得了显著进展。抽象文本摘要是指生成文档中最相关信息的简明版本。然而,目前关于大型语言模型在不同领域文本摘要任务上的适应能力研究还相对有限。现有研究大多局限于单一领域,如新闻文章或临床报告,缺乏跨领域的全面评估。

为了更好地理解这些模型在不同目标领域的适应能力,本文对11个模型在文本摘要任务上的领域适应性进行了全面评估。这些模型包括传统的编码器-解码器模型和各种参数规模的大型语言模型。我们分别在微调(fine-tuning)和上下文学习(in-context learning, ICL)设置下进行实验,评估它们在政府、医疗和科学等多个领域的表现。

评估指标包括自动评估指标ROUGE和BERTScore,以及专门设计的领域适应性指标。后者包括领域词汇重叠度(Domain Vocabulary Overlap, DVO)、G-eval评分和词元分布偏移(Token Distribution Shift)等。

实验结果表明,大型语言模型在上下文学习设置下展现出良好的领域适应能力。特别是,仅有70亿参数的小型模型,只需两个学习示例就能达到与大型模型相当的性能。然而,G-eval评分突出显示了模型在医疗领域的适应困难。虽然微调模型在自动评分方面表现最佳,但其领域词汇适应性不如上下文学习设置。

最后,我们发布了领域基准数据集和评估指标,作为第一个领域适应评估套件(AdaptEval),以促进模型评估和该任务的进一步研究。

领域适应评估套件

领域基准数据集

我们的基准数据集包含来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值