大模型论文—大型语言模型持续学习综述

大模型入门学习

于 2024-05-04 08:00:00 发布

阅读量396

点赞数 3

文章标签： chatgpt 人工智能 opencv 数据挖掘语音识别深度学习目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84494441/article/details/138342206

版权

本文探讨了在静态数据集训练的大型语言模型如何应对动态数据分布和用户偏好的挑战。文章详细介绍了持续学习在LLMs中的四个关键部分：概述、垂直/水平连续性、预训练阶段和评估方法，以及相关问题和数据源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在静态、预先收集的通用数据集上训练的大型语言模型（LLM）的成功引发了许多研究方向和应用。其中一个方向解决了将预训练的 LLM 集成到动态数据分布、任务结构和用户偏好中的重要挑战。预先训练的 LLM 在针对特定需求量身定制时，通常会在以前的知识领域中经历显着的性能下降——这种现象被称为“灾难性遗忘”。虽然在持续学习（CL）社区中进行了广泛的研究，但它在 LLM 领域提出了新的表现形式。在本次调查中，我们全面概述了CL背景下LLMs的当前研究进展。本调查分为四个主要部分：我们首先描述了持续学习 LLM 的概述，包括两个连续性方向：垂直连续性（或垂直持续学习），即从一般能力到特定能力的持续适应，以及水平连续性（或水平持续学习），即跨时间和领域的持续适应（第 3 节）。然后，我们总结了在现代 CL 背景下学习 LLM 的三个阶段：持续预训练（CPT）、领域自适应预训练（DAP）和持续微调（CFT）（第 4 节）。然后，我们概述了使用 LLM 进行持续学习的评估协议，以及当前可用的数据源（第 5 节）。最后，我们讨论了与LLM持续学习有关的有趣问题（第6节）。

想要论文资源的可以找我拿

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。