近年来,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了显著成就。与传统神经网络模型不同,基础语言模型通过在大量无监督数据集上进行预训练,获得了丰富的常识知识,并且具有强大的迁移学习能力。然而,由于灾难性遗忘,基础语言模型仍然无法模拟人类的持续学习能力。因此,各种基于持续学习(Continual Learning,CL)的方法被开发出来,以改进语言模型,使其能够在适应新任务的同时不遗忘以前的知识。
持续学习,也被称为终身学习或增量学习,是人工智能中的一个关键领域,旨在开发能够持续更新自身并获取新知识的系统,而不遗忘先前学到的信息,类似于人类学习的过程。
今天分享的这篇综述总结并分类了现有文献中应用于基础语言模型的持续学习方法,如预训练语言模型(PLMs)、大语言模型(LLMs)和视觉-语言模型(VLMs)。
1 范式转变
在持续学习领域,传统方法向基础语言模型的方法发生了显著的范式转变。
首先,基础语言模型由于在大规模数据集上的广泛预训练,展示了增强的泛化和迁移学习能力。模型具有快速适应下游任务的专门迁移能力,只需少量样本。因此,在促进新技能获取的同时,减轻零样本迁移和历史任务能力的退化至关重要。
其次,由于基础语言模型中大量的参数,采用参数高效技术,如提示调优和适配器,无需全面重新训练即可更新参数。