近年来,大型语言模型(Large Language Models, LLMs)在包括抽象文本摘要在内的广泛自然语言处理任务中取得了显著进展。抽象文本摘要是指生成文档中最相关信息的简明版本。然而,目前关于大型语言模型在不同领域文本摘要任务上的适应能力研究还相对有限。现有研究大多局限于单一领域,如新闻文章或临床报告,缺乏跨领域的全面评估。
为了更好地理解这些模型在不同目标领域的适应能力,本文对11个模型在文本摘要任务上的领域适应性进行了全面评估。这些模型包括传统的编码器-解码器模型和各种参数规模的大型语言模型。我们分别在微调(fine-tuning)和上下文学习(in-context learning, ICL)设置下进行实验,评估它们在政府、医疗和科学等多个领域的表现。
评估指标包括自动评估指标ROUGE和BERTScore,以及专门设计的领域适应性指标。后者包括领域词汇重叠度(Domain Vocabulary Overlap, DVO)、G-eval评分和词元分布偏移(Token Distribution Shift)等。
实验结果表明,大型语言模型在上下文学习设置下展现出良好的领域适应能力。特别是,仅有70亿参数的小型模型,只需两个学习示例就能达到与大型模型相当的性能。然而,G-eval评分突出显示了模型在医疗领域的适应困难。虽然微调模型在自动评分方面表现最佳,但其领域词汇适应性不如上下文学习设置。
最后,我们发布了领域基准数据集和评估指标,作为第一个领域适应评估套件(AdaptEval),以促进模型评估和该任务的进一步研究。
领域适应评估套件
领域基准数据集
我们的基准数据集包含来